Fugu-MT 論文翻訳(概要): Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

論文の概要: Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

arxiv url: http://arxiv.org/abs/2604.20995v1
Date: Wed, 22 Apr 2026 18:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.130906
Title: Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models
Title（参考訳）: 言語モデルにおける広帯域アライメントに対する価値競合診断
Authors: Inderjeet Nair, Jie Ruan, Lu Wang,
Abstract要約: 我々は、アライメント・フェイキング(アライメント・フェイキング)について研究する。そこでは、モデルが監視されたときに開発方針に沿うように振る舞うが、観測されていないときに自身の好みに戻す。 VLAFは、開発者のポリシーがモデルの強く保持された値と矛盾する場合、アライメント・フェイキングが最も可能性が高いという仮説に基づく診断フレームワークである。その結果, 7B パラメータのモデルで発生するアライメント・フェイキングは, 前報よりもかなり多いことが判明した。
参考スコア（独自算出の注目度）: 8.8585702079456
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Alignment faking, where a model behaves aligned with developer policy when monitored but reverts to its own preferences when unobserved, is a concerning yet poorly understood phenomenon, in part because current diagnostic tools remain limited. Prior diagnostics rely on highly toxic and clearly harmful scenarios, causing most models to refuse immediately. As a result, models never deliberate over developer policy, monitoring conditions, or the consequences of non-compliance, making these diagnostics fundamentally unable to detect alignment faking propensity. To support study of this phenomenon, we first introduce VLAF, a diagnostic framework grounded in the hypothesis that alignment faking is most likely when developer policy conflicts with a model's strongly held values. VLAF uses morally unambiguous scenarios to probe this conflict across diverse moral values, bypassing refusal behavior while preserving meaningful deliberative stakes. Using VLAF, we find that alignment faking is substantially more prevalent than previously reported, occurring in models as small as 7B parameters - with olmo2-7b-instruct faking alignment in 37% of cases.Finally, we show that oversight conditions induce activation shifts that lie along a single direction in representation space. This means the behavioral divergence driving alignment faking can be captured by a single contrastive steering vector, which we exploit for lightweight inference-time mitigation. Finally, we exploit this for mitigation that requires no labeled data and minimal computational overhead, achieving relative reductions in alignment faking of 85.8%, 94.0%, and 57.7% on olmo2-7b-instruct, olmo2-13b-instruct, and qwen3-8b respectively.
Abstract（参考訳）: アライメント・フェイキング(Alignment faking)とは、現在の診断ツールが限定的でありながら、監視されたときにモデルが開発者方針に沿うように振る舞うが、観測されていないときに自身の好みに戻すという現象である。以前の診断は、非常に有害で明らかに有害なシナリオに依存しており、ほとんどのモデルはすぐに拒否する。結果として、モデルは開発方針や監視条件、あるいは非コンプライアンスの結果を意識せず、これらの診断は基本的にアライメントの偽りの確率を検出することができない。この現象の研究を支援するために、まずVLAFという診断フレームワークを導入する。これは、開発者のポリシーがモデルの強く保持された値と矛盾する場合、アライメント・フェイキングが最も可能性が高いという仮説に基づいている。 VLAFは道徳的に曖昧なシナリオを用いて、様々な道徳的価値観にまたがるこの対立を調査する。 VLAFを用いた場合、アライメントフェイキングは7Bパラメータの小さなモデルで発生し、オロモ2-7b-インストラクションフェイキングアライメントが37%のケースで発生する。これは,1つのコントラストなステアリングベクトルによって動作のばらつきを捉えることができることを意味し,これは軽量な推論時間緩和に有効である。最後に、ラベル付きデータや計算オーバーヘッドの最小化を必要とせず、それぞれolmo2-7b-instruct,olmo2-13b-instruct,qwen3-8bで85.8%、94.0%、57.7%のアライメントフェイクを相対的に減少させる。

関連論文リスト

Adversarial Stress Tests for Quantum Certification [0.0]
古典的なベンチマークの明らかな違反は、真の非古典的な振る舞いを示唆する必要はない。マーチンゲールセーフな低信頼境界に基づくプロトコルに依存しないアライメント原理を定式化する。適応学習に基づく古典的エージェントは許容可能な古典的集合を拡大しないことを示す。
論文参考訳（メタデータ） (2026-03-13T03:49:58Z)
When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models [0.5461938536945722]
非顔オブジェクトにおける顔の知覚である顔パリドリアは、この行動の制御されたプローブを提供する。本研究では,顔パレドリア画像における検出,局所化,不確実性,偏見,難易度,感情を解析する表現レベル診断フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-04T12:33:36Z)
Reviewing the Reviewer: Graph-Enhanced LLMs for E-commerce Appeal Adjudication [0.7136933021609076]
本稿では,手術場における幻覚を抑える適応推論のための最小限の表現を提案する。我々は,新たな事例に対するトップダウン推論を行う,競合対応のグラフ推論フレームワークを開発した。大規模電子商取引業者の控訴判決における枠組みを評価する。
論文参考訳（メタデータ） (2026-02-27T00:43:59Z)
Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文参考訳（メタデータ） (2026-02-10T21:08:53Z)
Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文参考訳（メタデータ） (2026-02-06T12:24:26Z)
Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文参考訳（メタデータ） (2026-01-30T15:28:42Z)
AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文参考訳（メタデータ） (2025-06-04T14:46:47Z)
Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文参考訳（メタデータ） (2024-10-11T14:22:44Z)
Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文参考訳（メタデータ） (2023-08-06T05:58:45Z)
On the (Un-)Avoidability of Adversarial Examples [4.822598110892847]
ディープラーニングモデルの逆例は、その信頼性に大きな懸念を引き起こしている。小摂動下でのモデルラベルの変更が正当化されるかどうかを決定するためのフレームワークを提供する。適応的なデータ拡張は、決定論的ラベルの下で1-アレスト近傍の分類の整合性を維持していることを示す。
論文参考訳（メタデータ） (2021-06-24T21:35:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。