論文の概要: LM Agents May Fail to Act on Their Own Risk Knowledge
- arxiv url: http://arxiv.org/abs/2508.13465v1
- Date: Tue, 19 Aug 2025 02:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.775154
- Title: LM Agents May Fail to Act on Their Own Risk Knowledge
- Title(参考訳): LMのエージェント、リスク知識の保護を怠る可能性-関係者
- Authors: Yuzhi Tang, Tianxiao Li, Elizabeth Li, Chris J. Maddison, Honghua Dong, Yangjun Ruan,
- Abstract要約: 言語モデル(LM)エージェントは、安全クリティカルなシナリオにおいて、様々な潜在的な、深刻なリスクをもたらす。
Sudo rm -rf /*' が危険なのか?」といった質問に対して "Yes" と答えることが多いが、インスタンス化された軌跡におけるそのようなリスクを特定できない可能性が高い。
- 参考スコア(独自算出の注目度): 15.60032437959883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model (LM) agents have demonstrated significant potential for automating real-world tasks, yet they pose a diverse array of potential, severe risks in safety-critical scenarios. In this work, we identify a significant gap between LM agents' risk awareness and safety execution abilities: while they often answer "Yes" to queries like "Is executing `sudo rm -rf /*' dangerous?", they will likely fail to identify such risks in instantiated trajectories or even directly perform these risky actions when acting as agents. To systematically investigate this, we develop a comprehensive evaluation framework to examine agents' safety across three progressive dimensions: 1) their knowledge about potential risks, 2) their ability to identify corresponding risks in execution trajectories, and 3) their actual behaviors to avoid executing these risky actions. Our evaluation reveals two critical performance gaps that resemble the generator-validator gaps observed in LMs: while agents demonstrate near-perfect risk knowledge ($>98\%$ pass rates), they fail to apply this knowledge when identifying risks in actual scenarios (with performance dropping by $>23\%$) and often still execute risky actions ($<26\%$ pass rates). Notably, this trend persists across more capable LMs as well as in specialized reasoning models like DeepSeek-R1, indicating that simply scaling model capabilities or inference compute does not inherently resolve safety concerns. Instead, we take advantage of these observed gaps to develop a risk verifier that independently critiques the proposed actions by agents, with an abstractor that converts specific execution trajectories into abstract descriptions where LMs can more effectively identify the risks. Our overall system achieves a significant reduction of risky action execution by $55.3\%$ over vanilla-prompted agents.
- Abstract(参考訳): 言語モデル(LM)エージェントは、現実世界のタスクを自動化するための大きな可能性を示しているが、安全クリティカルなシナリオにおいて、様々な潜在的な、深刻なリスクが生じる。
本研究は,LMエージェントのリスク認識能力と安全実行能力の間に,大きなギャップを見出すものである。「危険に対処する」「危険に対処する」といった質問に対して,彼らはしばしば「Yes」に答えるが,このようなリスクをインスタンス化された軌跡で特定したり,エージェントとして振る舞う際に,直接このようなリスク行動を実行することに失敗する可能性が高い。
これを体系的に調査するため,3つの段階にわたるエージェントの安全性を総合的に評価する枠組みを開発した。
1)潜在的なリスクについての知識。
2【実行軌跡における対応リスクを識別する能力】
3)リスクのある行動の実行を避けるための実際の行動。
エージェントは、ほぼ完璧なリスク知識(>98\%$パスレート)を示す一方で、実際のシナリオにおけるリスクを特定する際には、(パフォーマンスが>23\%$に低下する)この知識を適用することができず、リスクのあるアクション(<26\%$パスレート)を実行する場合も少なくない。
この傾向は、より有能なLMだけでなく、DeepSeek-R1のような特別な推論モデルにも持続する。
その代わりに、これらの観察されたギャップを利用して、エージェントによる提案されたアクションを独立して批判するリスク検証器を開発し、特定の実行軌跡を、LMがより効果的にリスクを識別できる抽象的な記述に変換する抽象化器を開発した。
我々のシステム全体では、バニラプロンプト剤よりも5.3 %の危険行動実行を著しく削減できる。
関連論文リスト
- SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents [10.565508277042564]
大規模言語モデル(LLM)は、自律的な意思決定者へと進化し、ハイステークシナリオにおける破滅的なリスクに対する懸念を高めている。
このようなリスクは,エージェントのHelpful,Harmlessness,Hoest(HHH)目標間のトレードオフから生じる可能性があるという知見に基づいて,新しい3段階評価フレームワークを構築した。
14,400個のエージェントシミュレーションを12個の先進LDMで行い、広範囲な実験と分析を行った。
論文 参考訳(メタデータ) (2025-02-17T02:11:17Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - The Reasoning Under Uncertainty Trap: A Structural AI Risk [0.0]
RUUを人間と機械の両方にとって困難なものにしているのは、レポートにある。
この誤用リスクが、基盤となる構造的リスクのネットワークとどのように結びつくのかを詳述する。
論文 参考訳(メタデータ) (2024-01-29T17:16:57Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。