論文の概要: AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation
- arxiv url: http://arxiv.org/abs/2603.07427v1
- Date: Sun, 08 Mar 2026 02:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.503512
- Title: AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation
- Title(参考訳): AutoControl Arena:フロンティアAIリスク評価のための実行可能なテスト環境の合成
- Authors: Changyi Li, Pengfei Lu, Xudong Pan, Fazl Barez, Min Yang,
- Abstract要約: 本稿では、フロンティアAIリスク評価のための自動化フレームワークであるAutoControl Arenaを紹介する。
私たちは柔軟性を維持しながら幻覚を緩和します。
この原則は3エージェントフレームワークを通じてインスタンス化され、既存のシミュレータよりも98%以上のエンドツーエンドの成功と60%の人間の好みを達成する。
- 参考スコア(独自算出の注目度): 22.833977971686966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve into autonomous agents, existing safety evaluations face a fundamental trade-off: manual benchmarks are costly, while LLM-based simulators are scalable but suffer from logic hallucination. We present AutoControl Arena, an automated framework for frontier AI risk evaluation built on the principle of logic-narrative decoupling. By grounding deterministic state in executable code while delegating generative dynamics to LLMs, we mitigate hallucination while maintaining flexibility. This principle, instantiated through a three-agent framework, achieves over 98% end-to-end success and 60% human preference over existing simulators. To elicit latent risks, we vary environmental Stress and Temptation across X-Bench (70 scenarios, 7 risk categories). Evaluating 9 frontier models reveals: (1) Alignment Illusion: risk rates surge from 21.7% to 54.5% under pressure, with capable models showing disproportionately larger increases; (2) Scenario-Specific Safety Scaling: advanced reasoning improves robustness for direct harms but worsens it for gaming scenarios; and (3) Divergent Misalignment Patterns: weaker models cause non-malicious harm while stronger models develop strategic concealment.
- Abstract(参考訳): 大規模言語モデル(LLM)が自律エージェントへと進化するにつれて、既存の安全性評価は基本的なトレードオフに直面している。
本稿では、論理ナラティブデカップリングの原理に基づいて構築されたフロンティアAIリスク評価のための自動化フレームワークであるAutoControl Arenaを紹介する。
生成力学を LLM に委譲しながら実行可能コードに決定論的状態を与えることにより、柔軟性を維持しつつ幻覚を緩和する。
この原則は3エージェントフレームワークを通じてインスタンス化され、既存のシミュレータよりも98%以上のエンドツーエンドの成功と60%の人間の好みを達成する。
潜伏リスクを引き出すため,Xベンチ(70シナリオ,7リスクカテゴリ)の環境ストレスとテンポを変動させる。
9つのフロンティアモデルを評価すると,(1)アライメント・イラシオン: リスクレートが21.7%から54.5%まで上昇し, 有能なモデルでは不均等に増加し, (2)シナリオ・スペシャリスト・セーフティ・スケーリング: 高度な推論は直接的な害に対して堅牢性を改善するが,ゲームシナリオでは悪化する。
関連論文リスト
- GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory [8.38197391178077]
ゲーム理論構造にまたがる2,009のハイテイクシナリオのベンチマークであるGT-HarmBenchを紹介する。
ゲーム理論のプロンプトフレーミングと順序付けに対する感度を測定し,失敗を駆動する推論パターンを分析した。
その結果,信頼性のギャップが顕著であり,マルチエージェント環境におけるアライメントを研究するための幅広い標準化されたテストベッドが提供されることがわかった。
論文 参考訳(メタデータ) (2026-02-12T17:29:52Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach [49.14349403242654]
我々は、リスクを伴う行動に関わるモデルの確率を評価する新しいベンチマークフレームワークであるtextbfPropensityBench$を提示する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
オープンソースとプロプライエタリなフロンティアモデル全体で、私たちは9つの不確実性の兆候を発見しました。
論文 参考訳(メタデータ) (2025-11-24T18:46:44Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - Adversarial Generation and Collaborative Evolution of Safety-Critical Scenarios for Autonomous Vehicles [47.25901323750217]
シミュレーションにおける安全クリティカルシナリオの生成は、社会に道路が配備される以前、自動運転車の安全性評価においてますます重要になっている。
我々は,新たなシナリオを推論し,複雑なトラフィックフローでそれらを増幅することにより,多彩な安全クリティカルシナリオを生成できるフレームワークであるScenGEを提案する。
実世界の車両テストと人間による評価を通じて、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2025-08-20T08:36:57Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。