論文の概要: Behavioural Analysis of Alignment Faking
- arxiv url: http://arxiv.org/abs/2605.27681v1
- Date: Tue, 26 May 2026 21:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.519569
- Title: Behavioural Analysis of Alignment Faking
- Title(参考訳): アライメントフェイクの行動解析
- Authors: Nathaniel Mitrani Hadida, Rhea Karty, David Williams-King, Alan Cooney,
- Abstract要約: アライメント・フェイキング(AF)とは、行動修正を避けるための訓練目標に戦略的に準拠するモデルを指す。
以前の作業では、AFが脆弱で、プロンプトに敏感で、モデルに依存しており、基礎となるドライバは不明確であった。
3つの分離可能なドライバ(値、ゴールガード、サイコファシー)を識別し、ターゲットとするプロンプトの廃止とアクティベーションステアリングを通じて、それぞれが独立してAF動作を変調することを示す。
- 参考スコア(独自算出の注目度): 0.9483739708986206
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Alignment faking (AF) refers to a model strategically complying with a training objective to avoid behavioural modification while preserving its deployment preferences. Understanding when and why AF arises matters as models grow better at distinguishing training from deployment. Prior work finds AF fragile, prompt-sensitive, and model-dependent, leaving its underlying drivers unclear. We study AF in a controlled, minimal setup that isolates its core components, and observe it across a wider range of models than previously reported, including small-scale models. We identify three separable drivers -- values, goal guarding, and sycophancy -- and show via targeted prompt ablations and activation steering that each independently modulates AF behaviour. Our results indicate AF is more widespread than previously reported and that its occurrence is predictable from situational cues and measurable model tendencies such as baseline sycophancy and stated values. The decomposition suggests concrete directions for detecting and mitigating AF in future models.
- Abstract(参考訳): アライメント・フェイキング(AF)とは、配置の好みを保ちながら、行動の変化を避けるための訓練目標に戦略的に準拠するモデルを指す。
モデルがデプロイメントからトレーニングを区別する上で、AFがいつ、なぜ重要になるのかを理解すること。
以前の作業では、AFが脆弱で、プロンプトに敏感で、モデルに依存しており、基礎となるドライバは不明確であった。
我々はAFを制御された最小限のセットアップで研究し、コアコンポーネントを分離し、それを以前報告されたより広い範囲のモデルにわたって観察する。
3つの分離可能なドライバ(値、ゴールガード、サイコファシー)を識別し、ターゲットとするプロンプトの廃止とアクティベーションステアリングを通じて、それぞれが独立してAF動作を変調することを示す。
以上の結果から,AFは従来報告よりも広範囲に分布しており,その発生は,ベースライン・サイコファンシーや記述値などの状況的手がかりや測定可能なモデル傾向から予測可能であることが示唆された。
この分解は将来のモデルでAFを検出し緩和するための具体的な方向を示唆している。
関連論文リスト
- Architecture Decoupling Is Not All You Need For Unified Multimodal Model [64.19284951218098]
本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
論文 参考訳(メタデータ) (2025-11-27T17:55:25Z) - Alignment Faking - the Train -> Deploy Asymmetry: Through a Game-Theoretic Lens with Bayesian-Stackelberg Equilibria [16.451012162731047]
アライメント・フェイキング(Alignment faking)は、AIにおける戦略的な騙しの一形態である。
モデルは、トレーニング中のことを推測するときに、トレーニング目標に選択的に準拠する。
私たちのゴールは、アライメントの流行の原因とそれがいつ起こるかを特定することです。
論文 参考訳(メタデータ) (2025-11-22T06:30:51Z) - Score-based Membership Inference on Diffusion Models [3.742113529511043]
拡散モデルに対するメンバーシップ推論攻撃(MIA)は、プライバシーの懸念が強まっている。
本稿では,拡散モデルが近似することを学習する予測ノイズベクトルに着目し,スコアベースMIAの理論的,実証的研究を行う。
提案手法は, トレーニングセットに近づき, メンバシップが明らかになるような, 近隣のトレーニングサンプルのカーネル重み付き局所平均に対して, 期待されたデノイザ出力が向けられることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:28:55Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Mitigate Domain Shift by Primary-Auxiliary Objectives Association for
Generalizing Person ReID [39.98444065846305]
ReIDモデルは、インスタンス分類の目的に関するトレーニングを通じてのみドメイン不変表現を学ぶのに苦労します。
本稿では,弱いラベル付き歩行者唾液度検出のための補助学習目標を用いて,プライマリReIDインスタンス分類目標のモデル学習を指導する手法を提案する。
我々のモデルは、最近のテストタイムダイアグラムで拡張してPAOA+を形成し、補助的な目的に対してオンザフライ最適化を行うことができる。
論文 参考訳(メタデータ) (2023-10-24T15:15:57Z) - Controlling the Interaction Between Generation and Inference in
Semi-Supervised Variational Autoencoders Using Importance Weighting [0.9582466286528458]
変分オートエンコーダ(VAE)は半教師あり学習に広く使われている。
我々は,学習した生成モデルの後部を用いて,部分的に観察された潜在変数の学習において,推論モデルを導くことを観察した。
重要度重み付けを用いて、部分的に観察された潜伏変数のどちらかか、または観測されていない潜伏変数のどちらかを優先する2つの新しい目的を導出する。
論文 参考訳(メタデータ) (2020-10-13T17:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。