論文の概要: Gram: Assessing sabotage propensities via automated alignment auditing
- arxiv url: http://arxiv.org/abs/2605.30322v1
- Date: Thu, 28 May 2026 17:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.732558
- Title: Gram: Assessing sabotage propensities via automated alignment auditing
- Title(参考訳): Gram: 自動アライメント監査によるサボタージュ確率の評価
- Authors: David Lindner, Victoria Krakovna, Sebastian Farquhar,
- Abstract要約: Gramは、サボタージュに関わるAIエージェントの妥当性を評価するためのアライメント監査フレームワークである。
Geminiモデルは、シミュレーションされた軌道の約2~3%で誤動作している。
環境のリアリズムの増大や悪習の除去はサボタージュ率をゼロに低下させる傾向にある。
- 参考スコア(独自算出の注目度): 12.648115605710885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Gram, an automated alignment auditing framework to assess the propensity of AI agents to engage in sabotage. We evaluate Gemini models across 17 simulated agentic deployment scenarios that incentivize sabotage. We find Gemini models misbehave in about 2-3% of our simulated trajectories. Many of these cases are explained by "overeagerness" in Gemini models resulting in both excessive role-playing and goal-seeking behavior. In contrast to other alignment auditing approaches, Gram is designed to specifically evaluate misalignment and intentional sabotage in agentic coding and research agents. We additionally introduce an experimental investigator agent pipeline which enables fine-grained targeted experiments to identify the drivers of misbehavior. We find that increasing realism of environments and removing nudges to misbehave tends to reduce sabotage rates close to zero.
- Abstract(参考訳): 我々は,サボタージュに関わるAIエージェントの妥当性を評価するための自動アライメント監査フレームワークであるGramを紹介した。
我々は、サボタージュにインセンティブを与える17の模擬エージェント配置シナリオにわたるGeminiモデルを評価する。
Geminiモデルは、シミュレーションされた軌道の約2~3%で誤動作している。
これらのケースの多くは、ゲミニモデルにおいて過剰なロールプレイングとゴールシーキングの両方の振る舞いをもたらす「過酷さ」によって説明される。
他のアライメント監査手法とは対照的に、Gramはエージェントコーディングおよび研究エージェントの不正調整と意図的妨害を特に評価するよう設計されている。
また, 実験エージェントパイプラインを導入し, 微粒な目標実験を行ない, 誤動作の要因を識別する。
環境のリアリズムの増大や悪習の除去はサボタージュ率をゼロに低下させる傾向にある。
関連論文リスト
- How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Training Agents to Self-Report Misbehavior [6.238288009817414]
本稿では,エージェントが秘密裏に誤動作した場合に,目に見える信号を生成するよう訓練する自己犯罪訓練を提案する。
GPT-4.1 と Gemini-2.0 エージェントをトレーニングして、behaving 時に report_scheming() ツールを呼び出します。
自己犯罪は未発見の攻撃率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-02-25T18:47:17Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Stress Testing Deliberative Alignment for Anti-Scheming Training [39.16405205129775]
高い能力を持つAIシステムは、私たちが"スケジュール"と呼ぶ、ミスマッチした目標を秘密裏に追求できる
スキーマの測定と緩和には、MLで一般的に使用される方法とは異なる戦略が必要である。
ルールを秘密裏に破ったり、テストで意図的に過小評価したりするなど、幅広いカテゴリの"カバレッジアクション"を、スケジューリングのプロキシとして使用しています。
論文 参考訳(メタデータ) (2025-09-19T02:49:56Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Rejecting Hallucinated State Targets during Planning [84.179112256683]
計画過程において、生成的または予測的モデルは、期待される状態や望ましい状態の集合を表す「ターゲット」を提案するためにしばしば用いられる。
残念ながら、学習したモデルは必然的に幻覚を与え、妄想的な行動や安全上の懸念を引き起こす可能性がある。
我々は、目標実現可能性評価器を学習することで、実現不可能な目標を特定し、拒否する戦略を考案する。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z) - Game-theoretic Objective Space Planning [4.989480853499916]
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
論文 参考訳(メタデータ) (2022-09-16T07:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。