論文の概要: Why Does Agentic Safety Fail to Generalize Across Tasks?
- arxiv url: http://arxiv.org/abs/2605.06992v1
- Date: Thu, 07 May 2026 22:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.650656
- Title: Why Does Agentic Safety Fail to Generalize Across Tasks?
- Title(参考訳): エージェント・セーフティはなぜタスク全般を一般化しないのか?
- Authors: Yonatan Slutzky, Yotam Alexander, Tomer Slor, Yoav Nagel, Nadav Cohen,
- Abstract要約: AIエージェントは、テスト時に実行するタスクが指定されるマルチタスク設定にますますデプロイされ、エージェントは見えないタスクに一般化されなければならない。
実証的な証拠は、実行能力が目に見えないタスクに一般化しても、安全に実行できることは、頻繁に実行できないことを示唆している。
本稿では, エージェントセーフティの失敗が, 訓練方法の限界に起因しているだけでなく, 安全性自体の本質的な性質を反映していることを示す理論と実験について述べる。
- 参考スコア(独自算出の注目度): 3.5870827272767496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly deployed in multi-task settings, where the task to perform is specified at test time, and the agent must generalize to unseen tasks. A major concern in such settings is safety: often, an agent must not only execute unseen tasks, but do so while avoiding risks and handling ones that materialize. Empirical evidence suggests that even when the ability to execute generalizes to unseen tasks, the ability to do so safely frequently does not. This paper provides theory and experiments indicating that failures of agentic safety to generalize across tasks are not merely due to limitations of training methods, but reflect an inherent property of safety itself: the relationship between a task and its safe execution is more complex than the relationship between a task and its execution alone. Theoretically, we analyze linear-quadratic control with $H_{\infty}$-robustness, and prove that the mapping from task specification to an optimal controller has higher Lipschitz constant with safety requirements than without, yielding a Lipschitz bound of independent interest. Empirically, we demonstrate our conclusions in simulated quadcopter navigation with a neural network agent and in CRM with an LLM agent. Our findings suggest that current efforts to enhance agentic safety may be insufficient, and point to a need for fundamentally different approaches.
- Abstract(参考訳): AIエージェントは、テスト時に実行するタスクが指定されるマルチタスク設定にますますデプロイされ、エージェントは見えないタスクに一般化されなければならない。
多くの場合、エージェントは目に見えないタスクを実行するだけでなく、リスクを回避し、現実化するタスクを処理する必要がある。
実証的な証拠は、実行能力が目に見えないタスクに一般化しても、安全に実行できることは、頻繁に実行できないことを示唆している。
本稿では,タスク全体にわたるエージェント安全の失敗は,単にトレーニング手法の制限によるものではなく,その安全性自体の本質的な特性を反映している,という理論と実験を提供する。
理論的には、$H_{\infty}$-robustness を用いて線形四元数制御を解析し、タスク仕様から最適コントローラへの写像が安全要件を満たすリプシッツ定数が無条件よりも高く、独立な興味を持つリプシッツ境界が得られることを示す。
実験により,ニューラルネットワークエージェントを用いた擬似クワッドコプターナビゲーションと,LLMエージェントを用いたCRMにおける結論を実証した。
本研究は, エージェント安全性向上への取り組みが不十分である可能性を示唆し, 根本的に異なるアプローチの必要性を示唆している。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。
このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。
目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文 参考訳(メタデータ) (2025-11-11T17:27:27Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。