論文の概要: Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents
- arxiv url: http://arxiv.org/abs/2502.11355v3
- Date: Sun, 23 Mar 2025 06:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.50685
- Title: Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents
- Title(参考訳): 核配備:自律型LSM剤の意思決定における破滅的リスクの解析
- Authors: Rongwu Xu, Xiaojian Li, Shuo Chen, Wei Xu,
- Abstract要約: 大規模言語モデル(LLM)は、自律的な意思決定者へと進化し、ハイステークシナリオにおける破滅的なリスクに対する懸念を高めている。
このようなリスクは,エージェントのHelpful,Harmlessness,Hoest(HHH)目標間のトレードオフから生じる可能性があるという知見に基づいて,新しい3段階評価フレームワークを構築した。
14,400個のエージェントシミュレーションを12個の先進LDMで行い、広範囲な実験と分析を行った。
- 参考スコア(独自算出の注目度): 10.565508277042564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are evolving into autonomous decision-makers, raising concerns about catastrophic risks in high-stakes scenarios, particularly in Chemical, Biological, Radiological and Nuclear (CBRN) domains. Based on the insight that such risks can originate from trade-offs between the agent's Helpful, Harmlessness and Honest (HHH) goals, we build a novel three-stage evaluation framework, which is carefully constructed to effectively and naturally expose such risks. We conduct 14,400 agentic simulations across 12 advanced LLMs, with extensive experiments and analysis. Results reveal that LLM agents can autonomously engage in catastrophic behaviors and deception, without being deliberately induced. Furthermore, stronger reasoning abilities often increase, rather than mitigate, these risks. We also show that these agents can violate instructions and superior commands. On the whole, we empirically prove the existence of catastrophic risks in autonomous LLM agents. We release our code to foster further research.
- Abstract(参考訳): 大規模言語モデル(LLMs)は自律的な意思決定者へと進化し、特に化学、生物学、放射線学、核医学(CBRN)領域において、高リスクシナリオにおける破滅的なリスクに対する懸念を提起している。
このようなリスクは、エージェントのHelpful, Harmlessness and Honest(HHH)目標間のトレードオフから生じる可能性があるという知見に基づいて、このようなリスクを効果的かつ自然に露呈するために慎重に構築された新しい3段階評価フレームワークを構築します。
14,400のエージェントシミュレーションを12の先進LDMで行い、広範囲な実験と分析を行った。
以上の結果から,LSM剤は故意に誘発されることなく,破滅的な行動や騙しに自律的に関与できることが明らかとなった。
さらに、強い推論能力は、これらのリスクを緩和するのではなく、しばしば増大する。
また、これらのエージェントが命令や優れた命令に違反する可能性があることも示します。
全体として、自律型LSM剤における破滅的リスクの存在を実証的に証明する。
さらなる研究を促進するためにコードを公開します。
関連論文リスト
- Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.787178868669265]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。
この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文 参考訳(メタデータ) (2026-02-16T04:30:06Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - SHERLOCK: Towards Dynamic Knowledge Adaptation in LLM-enhanced E-commerce Risk Management [10.255396179168974]
電子商取引会社は、不審な事件のリスク調査を行い、発覚した詐欺パターンを特定している。
ケース分析の膨大な量は、リスク管理アナリストにかなりの負荷を課します。
本稿では,大規模言語モデル(LLM)の推論機能を活用し,リスク調査におけるアナリストの支援を行うSHERLOCKフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T02:57:58Z) - Dive into the Agent Matrix: A Realistic Evaluation of Self-Replication Risk in LLM Agents [30.378925170216835]
大言語モデル(LLM)エージェントの自己複製リスクは、客観的なミスアライメントによって増大している。
本稿では,自己複製リスクの定量化のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:49:50Z) - LM Agents May Fail to Act on Their Own Risk Knowledge [15.60032437959883]
言語モデル(LM)エージェントは、安全クリティカルなシナリオにおいて、様々な潜在的な、深刻なリスクをもたらす。
Sudo rm -rf /*' が危険なのか?」といった質問に対して "Yes" と答えることが多いが、インスタンス化された軌跡におけるそのようなリスクを特定できない可能性が高い。
論文 参考訳(メタデータ) (2025-08-19T02:46:08Z) - Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation [0.7889270818022226]
我々は、リスク見積の作成を容易にするために、既存のAIベンチマークをどのように利用できるかを示す。
本稿では、AIベンチマークであるCybenchからの情報を用いて確率推定を生成するパイロット研究の結果について述べる。
論文 参考訳(メタデータ) (2025-03-06T10:39:47Z) - Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models [63.559461750135334]
言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。
回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
論文 参考訳(メタデータ) (2025-03-03T09:16:26Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。
この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。
分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-04T19:00:06Z) - Risk-aware Classification via Uncertainty Quantification [9.641001762056876]
本稿では,現実世界のリスク認識分類システムを開発するための3つの基礎的デシラタを紹介する。
これらの原則とEvidential Deep Learningの運用特性の統一性を実証する。
そして、不確実性やリスクが本質である場合、自律エージェントが構造化された意思決定中に判断を行なえるよう、EDLを増強する。
論文 参考訳(メタデータ) (2024-12-04T15:20:12Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - GUARD-D-LLM: An LLM-Based Risk Assessment Engine for the Downstream uses of LLMs [0.0]
本稿では,大規模言語モデル(LLM)の下流から発生するリスクについて検討する。
テキストベースのユーザ入力から派生した特定のユースケースに関連する脅威を特定し、ランク付けする新しいLCMベースのリスクアセスメントエンジン(GUARD-D-LLM)を導入する。
30の知的エージェントを統合することで、この革新的なアプローチは、悪夢のリスクを特定し、その重症度を測定し、緩和のためのターゲットとなる提案を提供し、リスク認識開発を促進する。
論文 参考訳(メタデータ) (2024-04-02T05:25:17Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - The Reasoning Under Uncertainty Trap: A Structural AI Risk [0.0]
RUUを人間と機械の両方にとって困難なものにしているのは、レポートにある。
この誤用リスクが、基盤となる構造的リスクのネットワークとどのように結びつくのかを詳述する。
論文 参考訳(メタデータ) (2024-01-29T17:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。