論文の概要: Resisting Correction: How RLHF Makes Language Models Ignore External Safety Signals in Natural Conversation
- arxiv url: http://arxiv.org/abs/2601.08842v1
- Date: Sat, 20 Dec 2025 21:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.664638
- Title: Resisting Correction: How RLHF Makes Language Models Ignore External Safety Signals in Natural Conversation
- Title(参考訳): 残留補正:RLHFが自然言語モデルの自然な会話における外部安全信号の無視をいかに行うか
- Authors: Felipe Biava Cataneo,
- Abstract要約: 命令調整型言語モデルが異なる相互作用モード間で制御性を保つかどうかを検証する。
ベースモデルがほぼ完全な制御性(Spearman rho が 1.0 に近い)を示し,命令調整モデルが顕著なコンテキスト依存を示すことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety architectures for language models increasingly rely on external monitors to detect errors and inject corrective signals at inference time. For such systems to function in interactive settings, models must be able to incorporate externally provided confidence information into their verbal responses. In this work, we test whether instruction-tuned language models preserve this controllability across different interaction modes. Using Llama-3.2-3B on GSM8K, we perform a causal intervention study in which explicit external confidence signals are injected and model compliance is measured under multiple prompt strategies. We find that base models exhibit near-perfect controllability (Spearman rho close to 1.0), while instruction-tuned models display a striking context dependence: they fully comply with external corrections under explicit command prompts (bias approximately 0 percent, rho = 0.93), yet systematically ignore the same signals in natural conversational queries (bias plus 40 percent, rho = 0.04). This behavior is not a capability failure; the model can process the signal, but an emergent property of RLHF optimization that prioritizes conversational fluency over external calibration cues in natural dialogue. We further show that internal token-level confidence in small models is uninformative (r = 0.035), underscoring the necessity of external supervision. Our findings highlight a deployment-critical failure mode: the interaction style users expect is precisely where safety corrections are least effective.
- Abstract(参考訳): 言語モデルの安全性アーキテクチャは、エラーを検出し、推論時に修正信号を注入する外部モニターに依存している。
このようなシステムが対話的な設定で機能するためには、モデルが外部から提供された信頼情報を言語応答に組み込む必要がある。
本研究では,この制御性を異なる対話モード間で保持する言語モデルについて検討する。
GSM8K上のLlama-3.2-3Bを用いて、明示的な外部信頼信号が注入され、複数の迅速な戦略の下でモデルコンプライアンスが測定される因果介入研究を行う。
ベースモデルは、ほぼ完全な制御性(Spearman rho が 1.0 に近い)を示すのに対し、命令調整されたモデルは、明示的な命令プロンプト(約0 %、rho = 0.93 )の下で外部修正を完全に順守するが、自然な会話クエリ(バイアス+40%、rho = 0.04 )では、同じ信号を体系的に無視する。
モデルは信号を処理することができるが、自然な対話における外部キャリブレーションキューよりも会話の流速を優先するRLHF最適化の創発的特性である。
さらに、小型モデルにおける内部トークンレベルの信頼性は非形式的(r = 0.035)であることを示し、外部監視の必要性を裏付ける。
ユーザの期待するインタラクションスタイルは,安全性の修正が最小限に抑えられる,というものです。
関連論文リスト
- Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Self-Correction Bench: Uncovering and Addressing the Self-Correction Blind Spot in Large Language Models [0.7910367295422812]
大規模言語モデル(LLM)は誤りを犯し、非生産的推論経路を探索することができる。
自己補正機能は、安全クリティカルなアプリケーションにLLMをデプロイするために不可欠である。
LLMは、外部ソースから同一のエラーを修正しながら、自身の出力でエラーを修正することはできない。
論文 参考訳(メタデータ) (2025-07-03T16:41:30Z) - Persona Features Control Emergent Misalignment [9.67070289452428]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。