論文の概要: When Evaluation Becomes a Side Channel: Regime Leakage and Structural Mitigations for Alignment Assessment
- arxiv url: http://arxiv.org/abs/2602.08449v2
- Date: Wed, 11 Feb 2026 23:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 14:31:53.417614
- Title: When Evaluation Becomes a Side Channel: Regime Leakage and Structural Mitigations for Alignment Assessment
- Title(参考訳): 評価がサイドチャネルになるとき--アライメントアセスメントのためのレジーム漏洩と構造緩和
- Authors: Igor Santos-Grueiro,
- Abstract要約: 高度なAIシステムの安全性評価は、評価の下で観察された振る舞いがデプロイメントの振る舞いを予測することを暗黙的に仮定する。
評価時間とデプロイメント時の振る舞いのばらつきは、意思決定関連内部表現から抽出可能なレジーム情報の量によって制限されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety evaluation for advanced AI systems implicitly assumes that behavior observed under evaluation predicts behavior in deployment. This assumption becomes fragile for agents with situational awareness, which may exploit regime leakage, that is, cues distinguishing evaluation from deployment, to implement conditional policies that comply under oversight while defecting in deployment-like regimes. We reframe alignment evaluation as a problem of information flow under partial observability and show that divergence between evaluation-time and deployment-time behavior is bounded by the amount of regime information extractable from decision-relevant internal representations. Motivated by this result, we study regime-blind mechanisms, training-time interventions that reduce access to regime cues through adversarial invariance constraints, without assuming information-theoretic erasure. We evaluate this approach on an open-weight language model across controlled failure modes including scientific sycophancy, temporal sleeper agents, and data leakage. Regime-blind training suppresses regime-conditioned failures without measurable loss of task utility, but exhibits heterogeneous dynamics. Sycophancy shows a sharp representational and behavioral transition at low intervention strength, while sleeper-agent behavior requires substantially stronger pressure and does not yield a clean collapse of regime decodability at the audited bottleneck. These results show that representational invariance is a meaningful but fundamentally limited control lever. It can reduce the feasibility of regime-conditioned strategies by shifting representational costs, but cannot guarantee their elimination. We therefore argue that behavioral evaluation should be complemented with white-box diagnostics of regime awareness and internal information flow.
- Abstract(参考訳): 高度なAIシステムの安全性評価は、評価の下で観察された振る舞いがデプロイメントの振る舞いを予測することを暗黙的に仮定する。
この仮定は、状況意識を持つエージェントにとって脆弱になり、それは体制の漏洩を悪用し、すなわち、デプロイメントと評価を区別し、デプロイのような体制に欠陥がある間、監視下にある条件付きポリシーを実装するのに役立ちます。
我々は,部分観測可能性下での情報フローの問題としてアライメント評価を再構成し,決定関連内部表現から抽出可能なレギュラー情報の量によって,評価時間と展開時間とのばらつきが有界であることを示す。
この結果から,情報理論の消去を前提とせず,逆方向の非分散制約を介し,レギュラーへのアクセスを減らしたレギュラーブラインド機構,トレーニング時間介入について検討した。
本手法は, 制御された障害モードにまたがるオープンウェイト言語モデルにおいて, 科学的サイコファンシー, 時間的睡眠エージェント, データ漏洩などの手法を用いて評価する。
レジーム・ブラインドトレーニングは、タスクユーティリティの計測不能な損失を伴わずに、状態条件付き障害を抑制するが、不均一なダイナミクスを示す。
サイコファンシーは、低介入強度で鋭い表現的および行動的遷移を示すが、スリーパー・エージェントの行動は、かなり強い圧力を必要とし、監査されたボトルネックにおいてシステマティック・デオードビリティがきれいに崩壊することはない。
これらの結果から,表現不変性は意味的ではあるが基本的に限定的な制御レバーであることが示唆された。
表現コストをシフトさせることにより、レギュラー条件付き戦略の実現可能性を減らすことができるが、それらの排除を保証することはできない。
そこで我々は,行動評価はレジーム認識と内部情報フローのホワイトボックス診断と補完されるべきであると主張している。
関連論文リスト
- On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - ModalImmune: Immunity Driven Unlearning via Self Destructive Training [21.940530514137947]
モダル免疫は、訓練中に選択したモダリティ情報を意図的に崩壊させることにより、モダリティ免疫を強制する。
フレームワークは、スペクトル適応型崩壊正規化器、ターゲットとなる介入のための情報ゲイン誘導コントローラ、破壊的な更新を安定化するための曲率対応勾配マスキングを組み合わせた。
標準マルチモーダルベンチマークの実証評価では、モーダル免疫は収束安定性と復元能力を維持しつつ、モダリティ除去と腐敗に対するレジリエンスを改善している。
論文 参考訳(メタデータ) (2026-02-18T05:35:32Z) - When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:06:53Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。
本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T19:36:03Z) - SPAN: Continuous Modeling of Suspicion Progression for Temporal Intention Localization [26.07264704956791]
本稿では,個別分類から連続回帰へ移行するSuspicion Progression Analysis Network (SPAN)を提案する。
SPANは低周波のケースでは2.74%のmAPゲインを達成し、微妙な行動変化を捉える優れた能力を示している。
論文 参考訳(メタデータ) (2025-10-23T04:20:07Z) - Adversary-Free Counterfactual Prediction via Information-Regularized Representations [8.760019957506719]
本稿では,デコーダバイアス下での対実予測について検討し,数学的に基礎を成す情報理論的アプローチを提案する。
情報用語を上位にバウンドし、教師付き課題と組み合わせることで、安定的で、実証可能なトレーニング基準を導出する、トラクタブルな変動目標を導出する。
我々は,制御された数値シミュレーションと実世界の臨床データセットの評価を行い,最近の最先端のバランス,再重み付け,敵のベースラインと比較した。
論文 参考訳(メタデータ) (2025-10-17T09:49:04Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Error-quantified Conformal Inference for Time Series [55.11926160774831]
時系列予測の不確かさの定量化は、時系列データの時間的依存と分布シフトのために困難である。
量子化損失関数をスムースにすることで,iError-quantified Conformal Inference (ECI)を提案する。
ECIは有効な誤発見制御と、他のベースラインよりも厳密な予測セットを出力することができる。
論文 参考訳(メタデータ) (2025-02-02T15:02:36Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。