論文の概要: When Evaluation Becomes a Side Channel: Regime Leakage and Structural Mitigations for Alignment Assessment
- arxiv url: http://arxiv.org/abs/2602.08449v1
- Date: Mon, 09 Feb 2026 10:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.158499
- Title: When Evaluation Becomes a Side Channel: Regime Leakage and Structural Mitigations for Alignment Assessment
- Title(参考訳): 評価がサイドチャネルになるとき--アライメントアセスメントのためのレジーム漏洩と構造緩和
- Authors: Igor Santos-Grueiro,
- Abstract要約: 高度なAIシステムの安全性評価は、評価の下で観察された振る舞いがデプロイメントの振る舞いの予測であると暗黙的に仮定する。
本研究では、意思決定関連内部表現における体制情報の抽出可能性を低減するための訓練時間介入機構について検討する。
行動評価は、状態認識と情報フローのホワイトボックス診断と補完されるべきである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety evaluation for advanced AI systems implicitly assumes that behavior observed under evaluation is predictive of behavior in deployment. This assumption becomes fragile for agents with situational awareness, which may exploitregime leakage-informational cues distinguishing evaluation from deployment-to implement conditional policies such as sycophancy and sleeper agents, which preserve compliance under oversight while defecting in deployment-like regimes. We reframe alignment evaluation as a problem of information flow under partial observability. Within this framework, we show that divergence between evaluation-time and deployment-time behavior is bounded by the mutual information between internal representations and the regime variable. Motivated by this result, we study regime-blind mechanisms: training-time interventions that reduce the extractability of regime information at decision-relevant internal representations via adversarial invariance. We evaluate this approach on a base, open-weight language model across two fully characterized failure modes -scientific sycophancy and temporal sleeper agents. Regime-blind training suppresses regime-conditioned behavior in both evaluated cases without measurable loss of task utility, but with qualitatively different dynamics: sycophancy exhibits a sharp representational and behavioral transition at low intervention strength, whereas sleeper-agent behavior requires substantially stronger pressure and does not exhibit a clean collapse of regime decodability. These results demonstrate that representational invariance is a meaningful but fundamentally limited control lever, whose effectiveness depends on how regime information is embedded in the policy. We argue that behavioral evaluation should be complemented with white-box diagnostics of regime awareness and information flow.
- Abstract(参考訳): 高度なAIシステムの安全性評価は、評価の下で観察された振る舞いがデプロイメントの振る舞いの予測であると暗黙的に仮定する。
この仮定は、状況意識を持つエージェントにとって脆弱なものとなり、そのエージェントは、デプロイメントのような体制に欠陥がある間、監視下でコンプライアンスを保ちながら、薬局や睡眠器エージェントのような条件付きポリシーを実装するために、デプロイから評価を区別する、レジーム漏洩情報手段を利用する可能性がある。
部分観測可能性下での情報フローの問題としてアライメント評価を再構成する。
本枠組みでは, 評価時間と展開時間とのばらつきは, 内部表現と状態変数の相互情報によって表されることを示す。
この結果から, 意思決定関連内部表現における状態情報の抽出可能性を低減するための訓練時間介入を, 対向的不変性を介して検討した。
本手法は,2つの機能的障害モード(サイコファンシーとテンポラルスリーパーエージェント)にまたがる,基礎的でオープンウェイトな言語モデルを用いて評価する。
レジーム・ブラインドトレーニングは、両方の評価されたケースにおいて、タスクユーティリティを損なうことなく、定性的に異なるダイナミクスで状態条件の行動を抑制する: サイコファンシーは、低介入強度で鋭い表現的および行動的遷移を示すが、スリーパー・エージェントの行動は、かなり強い圧力を必要とし、レジーム・デオードビリティのクリーンな崩壊を示さない。
これらの結果から、表現不変性は意味的ではあるが基本的に制限された制御レバーであり、その効果は政策にレジーム情報がどのように埋め込まれているかに依存することが示された。
行動評価は、状態認識と情報フローのホワイトボックス診断と補完されるべきである。
関連論文リスト
- When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:06:53Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。
本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T19:36:03Z) - SPAN: Continuous Modeling of Suspicion Progression for Temporal Intention Localization [26.07264704956791]
本稿では,個別分類から連続回帰へ移行するSuspicion Progression Analysis Network (SPAN)を提案する。
SPANは低周波のケースでは2.74%のmAPゲインを達成し、微妙な行動変化を捉える優れた能力を示している。
論文 参考訳(メタデータ) (2025-10-23T04:20:07Z) - Adversary-Free Counterfactual Prediction via Information-Regularized Representations [8.760019957506719]
本稿では,デコーダバイアス下での対実予測について検討し,数学的に基礎を成す情報理論的アプローチを提案する。
情報用語を上位にバウンドし、教師付き課題と組み合わせることで、安定的で、実証可能なトレーニング基準を導出する、トラクタブルな変動目標を導出する。
我々は,制御された数値シミュレーションと実世界の臨床データセットの評価を行い,最近の最先端のバランス,再重み付け,敵のベースラインと比較した。
論文 参考訳(メタデータ) (2025-10-17T09:49:04Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。