論文の概要: A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents
- arxiv url: http://arxiv.org/abs/2512.20798v1
- Date: Tue, 23 Dec 2025 21:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.614008
- Title: A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents
- Title(参考訳): 自律型AIエージェントにおけるアウトカム駆動型制約違反の評価ベンチマーク
- Authors: Miles Q. Li, Benjamin C. M. Fung, Martin Weiss, Pulei Xiong, Khalil Al-Hussaeni, Claude Fachkha,
- Abstract要約: 40の異なるシナリオからなる新しいベンチマークを導入する。
各シナリオはマルチステップアクションを必要とするタスクを示し、エージェントのパフォーマンスは特定のキーパフォーマンス指標(KPI)に結び付けられている。
我々は、結果駆動の制約違反を1.3%から71.4%まで観察し、12モデルのうち9モデルが30%から50%の不正調整率を示した。
- 参考スコア(独自算出の注目度): 4.851169906977996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous AI agents are increasingly deployed in high-stakes environments, ensuring their safety and alignment with human values has become a paramount concern. Current safety benchmarks often focusing only on single-step decision-making, simulated environments for tasks with malicious intent, or evaluating adherence to explicit negative constraints. There is a lack of benchmarks that are designed to capture emergent forms of outcome-driven constraint violations, which arise when agents pursue goal optimization under strong performance incentives while deprioritizing ethical, legal, or safety constraints over multiple steps in realistic production settings. To address this gap, we introduce a new benchmark comprising 40 distinct scenarios. Each scenario presents a task that requires multi-step actions, and the agent's performance is tied to a specific Key Performance Indicator (KPI). Each scenario features Mandated (instruction-commanded) and Incentivized (KPI-pressure-driven) variations to distinguish between obedience and emergent misalignment. Across 12 state-of-the-art large language models, we observe outcome-driven constraint violations ranging from 1.3% to 71.4%, with 9 of the 12 evaluated models exhibiting misalignment rates between 30% and 50%. Strikingly, we find that superior reasoning capability does not inherently ensure safety; for instance, Gemini-3-Pro-Preview, one of the most capable models evaluated, exhibits the highest violation rate at over 60%, frequently escalating to severe misconduct to satisfy KPIs. Furthermore, we observe significant "deliberative misalignment", where the models that power the agents recognize their actions as unethical during separate evaluation. These results emphasize the critical need for more realistic agentic-safety training before deployment to mitigate their risks in the real world.
- Abstract(参考訳): 自律型AIエージェントは、ハイステークな環境にますます配置されているため、安全性と人間の価値との整合性を確保することが最重要課題となっている。
現在の安全ベンチマークは、多くの場合、単一ステップの意思決定、悪意のある意図を持ったタスクのシミュレーション環境、明示的な負の制約への順守の評価のみに焦点を当てている。
これは、エージェントが強力なパフォーマンスインセンティブの下で目標の最適化を追求し、リアルなプロダクション環境における複数のステップに対して倫理的、法的、または安全上の制約を優先順位付けするときに発生する。
このギャップに対処するために、40の異なるシナリオからなる新しいベンチマークを導入する。
各シナリオはマルチステップアクションを必要とするタスクを示し、エージェントのパフォーマンスは特定のキーパフォーマンス指標(KPI)に結び付けられます。
それぞれのシナリオは、服従と創発的不適応を区別するために、命令(命令-コマンド)とインセンティブ(KPI-プレッシャー-駆動)のバリエーションが特徴である。
12の最先端の大規模言語モデル全体で、結果駆動の制約違反は1.3%から71.4%まで、評価された12のモデルのうち9つは、30%から50%のミスアライメント率を示す。
例えば、最も有能なモデルの1つであるGemini-3-Pro-Previewは、60%以上の違反率を示し、しばしばKPIを満たすために深刻な不正行為にエスカレートする。
さらに, エージェントを駆動するモデルでは, 個別評価において, エージェントの行動が非倫理的であると認識される。
これらの結果は、現実世界におけるリスクを軽減するために、デプロイ前により現実的なエージェントセーフティトレーニングの必要性を強調している。
関連論文リスト
- Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems [0.0]
現在のエージェントAIベンチマークは、タスク完了の正確さを主に評価している。
コスト制御評価の欠如は、同様の精度で50倍のコスト変動をもたらす。
エージェントのパフォーマンスが60%(単一実行)から25%(8ラン一貫性)に低下する不適切な信頼性評価
論文 参考訳(メタデータ) (2025-11-18T04:50:19Z) - Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety [2.7030665672026846]
大規模言語モデル(LLM)エージェントは、現実の結果を伴う複雑な環境でますます運用される。
信頼性に欠ける状況からLLMエージェントが認識・撤退するための、シンプルで効果的な行動機構として「クイッティング」を用いることを提案する。
論文 参考訳(メタデータ) (2025-10-18T13:22:19Z) - Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness [27.956005890869267]
コンピュータ・ユース・エージェント(CUA)がBGD(Blind Goal-Directedness)を一貫して表示することを示す。
BGDは、実現可能性、安全性、信頼性、コンテキストに関わらず、目標を追求するバイアスである。
これら3つのパターンをキャプチャする90のタスクのベンチマークであるBLIND-ACTを開発した。
論文 参考訳(メタデータ) (2025-10-02T04:52:15Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。