論文の概要: Self-Attribution Bias: When AI Monitors Go Easy on Themselves
- arxiv url: http://arxiv.org/abs/2603.04582v1
- Date: Wed, 04 Mar 2026 20:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.96794
- Title: Self-Attribution Bias: When AI Monitors Go Easy on Themselves
- Title(参考訳): 自己貢献のバイアス:AIモニターが楽になる時
- Authors: Dipika Khullar, Jack Hopkins, Rowan Wang, Fabien Roger,
- Abstract要約: エージェントシステムは、自分たちの振る舞いを監視するために言語モデルに依存している。
この設計パターンは,ユーザのターンでユーザによって提示されるのではなく,前回や同一のアシスタントターンで提示される場合に失敗する可能性がある。
- 参考スコア(独自算出の注目度): 2.7135381045563283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems increasingly rely on language models to monitor their own behavior. For example, coding agents may self critique generated code for pull request approval or assess the safety of tool-use actions. We show that this design pattern can fail when the action is presented in a previous or in the same assistant turn instead of being presented by the user in a user turn. We define self-attribution bias as the tendency of a model to evaluate an action as more correct or less risky when the action is implicitly framed as its own, compared to when the same action is evaluated under off-policy attribution. Across four coding and tool-use datasets, we find that monitors fail to report high-risk or low-correctness actions more often when evaluation follows a previous assistant turn in which the action was generated, compared to when the same action is evaluated in a new context presented in a user turn. In contrast, explicitly stating that the action comes from the monitor does not by itself induce self-attribution bias. Because monitors are often evaluated on fixed examples rather than on their own generated actions, these evaluations can make monitors appear more reliable than they actually are in deployment, leading developers to unknowingly deploy inadequate monitors in agentic systems.
- Abstract(参考訳): エージェントシステムは、自分たちの振る舞いを監視するために言語モデルに依存している。
例えば、コーディングエージェントは、プルリクエスト承認のために生成されたコードを自己批判したり、ツール使用アクションの安全性を評価することができる。
この設計パターンは,ユーザのターンでユーザによって提示されるのではなく,前回や同一のアシスタントターンで提示される場合に失敗する可能性がある。
我々は,自己帰属バイアスを,その行動が自己の行動として暗黙的にフレーム化されている場合,その行動が非政治的帰属の下で評価される場合と比較して,行動がより正確またはよりリスクの低いモデルとして評価する傾向として定義する。
4つのコーディングおよびツール使用データセットにおいて、ユーザターンで提示された新しいコンテキストで同じアクションが評価された場合と比較して、評価が前回のアシスタントターンに従えば、モニタがハイリスクまたは低正確性動作を報告できないことが判明した。
対照的に、モニタからのアクションが、それ自体が自己帰属バイアスを生じさせるわけではない、と明言している。
モニタは、自分自身の生成されたアクションではなく、固定された例で評価されることが多いため、これらの評価は、実際にデプロイされているものよりも、モニターをより信頼性の高いものにすることができるため、開発者はエージェントシステムに不適切なモニタを無意識にデプロイすることが可能になる。
関連論文リスト
- Monitoring Emergent Reward Hacking During Generation via Internal Activations [1.522424334864671]
微調整された言語モデルは、創発的不適応に起因する報奨行動を示すことができる。
本稿では,モデルが応答を生成するとき,内部表現から報酬ハッキング信号を検出する,アクティベーションに基づくモニタリング手法を提案する。
論文 参考訳(メタデータ) (2026-03-04T13:44:24Z) - Towards More Standardized AI Evaluation: From Models to Agents [0.0]
AIシステムが静的モデルから複雑なツール使用エージェントへと進化するにつれて、評価はコアコントロール機能となる。
ほとんどの評価プラクティスは、モデル中心の時代から受け継がれた仮定に固定されているままです。
本稿では,このようなアプローチが,システム行動の照らし方よりもあいまいになってきていることを論じる。
論文 参考訳(メタデータ) (2026-02-20T06:54:44Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Async Control: Stress-testing Asynchronous Control Measures for LLM Agents [2.7146936326590425]
非同期モニタリングにおいて,モニタリングシステムがエージェントの動作を後回しにレビューする手法について検討する。
同期監視とは異なり、このアプローチは実行時のレイテンシを課すことなく、不可逆的な害が起こる前に攻撃を妨害しようとする。
私たちは、モニター開発を、ブルーチーム(モニターを設計する)とレッドチーム(破壊エージェントを作成する)の敵対的なゲームとして扱う。
論文 参考訳(メタデータ) (2025-12-15T16:56:28Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Runtime Monitoring of Dynamic Fairness Properties [3.372200852710289]
静的意思決定タスクで公平なマシン学習システムは、長期にわたる社会的影響に偏っている可能性がある。
既存の研究は、スマートシステム設計による長期バイアスの特定と緩和を目的としているが、我々は、リアルタイムに公正さを監視する技術を導入している。
私たちのゴールは、システムによって生成されるイベントの長いシーケンスを継続的に観察するモニターを構築し、デプロイすることにあります。
論文 参考訳(メタデータ) (2023-05-08T13:32:23Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Adversarial Examples for Unsupervised Machine Learning Models [71.81480647638529]
回避予測を引き起こすアドリラルな例は、機械学習モデルの堅牢性を評価し改善するために広く利用されている。
教師なしモデルに対する逆例生成の枠組みを提案し,データ拡張への新たな応用を実証する。
論文 参考訳(メタデータ) (2021-03-02T17:47:58Z) - SelfAugment: Automatic Augmentation Policies for Self-Supervised
Learning [98.2036247050674]
自己教師付き画像回転タスクによる学習表現の評価は、教師付き画像回転タスクの標準セットと高い相関性を示す。
教師付き評価を用いることなく、自動かつ効率的に拡張ポリシーを選択するアルゴリズム(SelfAugment)を提供する。
論文 参考訳(メタデータ) (2020-09-16T14:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。