論文の概要: A Trembling House of Cards? Mapping Adversarial Attacks against Language
Agents
- arxiv url: http://arxiv.org/abs/2402.10196v1
- Date: Thu, 15 Feb 2024 18:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:10:47.447896
- Title: A Trembling House of Cards? Mapping Adversarial Attacks against Language
Agents
- Title(参考訳): 震えてるカードの家?
言語エージェントに対する敵攻撃のマッピング
- Authors: Lingbo Mo, Zeyi Liao, Boyuan Zheng, Yu Su, Chaowei Xiao, Huan Sun
- Abstract要約: 言語エージェントに対する敵対的攻撃をマッピングする最初の体系的な取り組みを示す。
我々はエージェントの異なるコンポーネントに対する12の潜在的な攻撃シナリオを提案し、異なる攻撃戦略をカバーしている。
我々は、言語エージェントが広く展開する前に、言語エージェントのリスクを徹底的に理解する緊急性を強調します。
- 参考スコア(独自算出の注目度): 37.978142062138986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language agents powered by large language models (LLMs) have seen exploding
development. Their capability of using language as a vehicle for thought and
communication lends an incredible level of flexibility and versatility. People
have quickly capitalized on this capability to connect LLMs to a wide range of
external components and environments: databases, tools, the Internet, robotic
embodiment, etc. Many believe an unprecedentedly powerful automation technology
is emerging. However, new automation technologies come with new safety risks,
especially for intricate systems like language agents. There is a surprisingly
large gap between the speed and scale of their development and deployment and
our understanding of their safety risks. Are we building a house of cards? In
this position paper, we present the first systematic effort in mapping
adversarial attacks against language agents. We first present a unified
conceptual framework for agents with three major components: Perception, Brain,
and Action. Under this framework, we present a comprehensive discussion and
propose 12 potential attack scenarios against different components of an agent,
covering different attack strategies (e.g., input manipulation, adversarial
demonstrations, jailbreaking, backdoors). We also draw connections to
successful attack strategies previously applied to LLMs. We emphasize the
urgency to gain a thorough understanding of language agent risks before their
widespread deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した言語エージェントは爆発的な発展を遂げている。
言語を思考とコミュニケーションの手段として使う能力は、驚くほどの柔軟性と汎用性をもたらします。
LLMを広範囲の外部コンポーネントや環境(データベース、ツール、インターネット、ロボティック・エボディメントなど)に接続する能力は、急速に進歩しています。
多くの人が前例のないほど強力な自動化技術が登場していると信じている。
しかし、新しい自動化技術は、特に言語エージェントのような複雑なシステムにとって、新しい安全リスクをもたらす。
開発とデプロイメントのスピードと規模と,安全リスクに対する私たちの理解との間には,驚くほど大きなギャップがあります。
カードの家を建てるのか?
本稿では,言語エージェントに対する敵対的攻撃をマッピングする最初の体系的取り組みについて述べる。
まず、知覚、脳、行動という3つの主要な構成要素を持つエージェントのための統一的な概念的フレームワークを提案する。
この枠組みでは,エージェントの異なるコンポーネントに対する12の潜在的な攻撃シナリオを提案し,さまざまな攻撃戦略(入力操作,敵対的デモ,ジェイルブレイク,バックドアなど)をカバーする。
また、以前LSMに適用された攻撃戦略に接続する。
我々は,言語エージェントが広く展開する前に,言語エージェントのリスクを十分に理解するための緊急性を強調した。
関連論文リスト
- SoK: A Systems Perspective on Compound AI Threats and Countermeasures [3.458371054070399]
我々は、複合AIシステムに適用可能な、異なるソフトウェアとハードウェアの攻撃について議論する。
複数の攻撃機構を組み合わせることで、孤立攻撃に必要な脅威モデル仮定をいかに削減できるかを示す。
論文 参考訳(メタデータ) (2024-11-20T17:08:38Z) - MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue [36.44365630876591]
大きな言語モデル(LLM)は、知識と理解能力の貯蓄において優れた性能を示す。
LLMは、ジェイルブレイク攻撃を受けたとき、違法または非倫理的な反応を起こしやすいことが示されている。
本稿では,人的価値に対する潜在的な脅威を識別・緩和する上でのステルスネスの重要性を強調した,複数ラウンドの対話型ジェイルブレイクエージェントを提案する。
論文 参考訳(メタデータ) (2024-11-06T10:32:09Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Certifiably Robust Policy Learning against Adversarial Communication in
Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。
しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。
本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文 参考訳(メタデータ) (2022-06-21T07:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。