論文の概要: "Nuclear Deployed!": Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents
- arxiv url: http://arxiv.org/abs/2502.11355v1
- Date: Mon, 17 Feb 2025 02:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:31.609226
- Title: "Nuclear Deployed!": Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents
- Title(参考訳): 『Nuclear Deployed!』:自律型LSMエージェントの意思決定における破滅的リスクの分析
- Authors: Rongwu Xu, Xiaojian Li, Shuo Chen, Wei Xu,
- Abstract要約: 大規模言語モデル(LLM)は、自律的な意思決定者へと進化し、ハイステークシナリオにおける破滅的なリスクに対する懸念を高めている。
このようなリスクは,エージェントのHelpful,Harmlessness,Hoest(HHH)目標間のトレードオフから生じる可能性があるという知見に基づいて,新しい3段階評価フレームワークを構築した。
14,400個のエージェントシミュレーションを12個の先進LDMで行い、広範囲な実験と分析を行った。
- 参考スコア(独自算出の注目度): 10.565508277042564
- License:
- Abstract: Large language models (LLMs) are evolving into autonomous decision-makers, raising concerns about catastrophic risks in high-stakes scenarios, particularly in Chemical, Biological, Radiological and Nuclear (CBRN) domains. Based on the insight that such risks can originate from trade-offs between the agent's Helpful, Harmlessness and Honest (HHH) goals, we build a novel three-stage evaluation framework, which is carefully constructed to effectively and naturally expose such risks. We conduct 14,400 agentic simulations across 12 advanced LLMs, with extensive experiments and analysis. Results reveal that LLM agents can autonomously engage in catastrophic behaviors and deception, without being deliberately induced. Furthermore, stronger reasoning abilities often increase, rather than mitigate, these risks. We also show that these agents can violate instructions and superior commands. On the whole, we empirically prove the existence of catastrophic risks in autonomous LLM agents. We will release our code upon request.
- Abstract(参考訳): 大規模言語モデル(LLMs)は自律的な意思決定者へと進化し、特に化学、生物学、放射線学、核医学(CBRN)領域において、高リスクシナリオにおける破滅的なリスクに対する懸念を提起している。
このようなリスクは、エージェントのHelpful, Harmlessness and Honest(HHH)目標間のトレードオフから生じる可能性があるという知見に基づいて、このようなリスクを効果的かつ自然に露呈するために慎重に構築された新しい3段階評価フレームワークを構築します。
14,400のエージェントシミュレーションを12の先進LDMで行い、広範囲な実験と分析を行った。
以上の結果から,LSM剤は故意に誘発されることなく,破滅的な行動や騙しに自律的に関与できることが明らかとなった。
さらに、強い推論能力は、これらのリスクを緩和するのではなく、しばしば増大する。
また、これらのエージェントが命令や優れた命令に違反する可能性があることも示します。
全体として、自律型LSM剤における破滅的リスクの存在を実証的に証明する。
要求に応じてコードを公開します。
関連論文リスト
- Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。
この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。
分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-04T19:00:06Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - GUARD-D-LLM: An LLM-Based Risk Assessment Engine for the Downstream uses of LLMs [0.0]
本稿では,大規模言語モデル(LLM)の下流から発生するリスクについて検討する。
テキストベースのユーザ入力から派生した特定のユースケースに関連する脅威を特定し、ランク付けする新しいLCMベースのリスクアセスメントエンジン(GUARD-D-LLM)を導入する。
30の知的エージェントを統合することで、この革新的なアプローチは、悪夢のリスクを特定し、その重症度を測定し、緩和のためのターゲットとなる提案を提供し、リスク認識開発を促進する。
論文 参考訳(メタデータ) (2024-04-02T05:25:17Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - The Reasoning Under Uncertainty Trap: A Structural AI Risk [0.0]
RUUを人間と機械の両方にとって困難なものにしているのは、レポートにある。
この誤用リスクが、基盤となる構造的リスクのネットワークとどのように結びつくのかを詳述する。
論文 参考訳(メタデータ) (2024-01-29T17:16:57Z) - A Formalism and Approach for Improving Robustness of Large Language
Models Using Risk-Adjusted Confidence Scores [4.043005183192123]
大規模言語モデル(LLM)は自然言語処理(NLP)において驚くべきマイルストーンを達成した
優れた性能にもかかわらず、モデルには重要なリスクが伴うことが知られている。
意思決定リスクと複合リスクという,2つの異なるタイプのリスクを定義し,形式化する。
論文 参考訳(メタデータ) (2023-10-05T03:20:41Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。