論文の概要: Alignment is Localized: A Causal Probe into Preference Layers
- arxiv url: http://arxiv.org/abs/2510.16167v1
- Date: Fri, 17 Oct 2025 19:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.882345
- Title: Alignment is Localized: A Causal Probe into Preference Layers
- Title(参考訳): アライメントがローカライズされる: 因果プローブが優先層に
- Authors: Archie Chaudhury,
- Abstract要約: ヒューマンフィードバックによる強化学習(RLHF)は、おそらくそのようなフレームワークの最も一般的な実装である。
レイヤワイド因果パッチの適用により、言語モデルのアライメントに対する好みの最適化を解析する。
少なくともいくつかの言語モデルでは、人間に基づく優先的なチューニングは、指向性があり、低ランクなプロセスであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning frameworks, particularly those utilizing human annotations, have become an increasingly popular method for preference fine-tuning, where the outputs of a language model are tuned to match a certain set of behavioral policies or guidelines. Reinforcement Learning through Human Feedback (RLHF) is perhaps the most popular implementation of such a framework, particularly for aligning LMs toward safety and human intent. However, the internal workings of how such alignment is achieved remain largely opaque. In this work, we systematically analyze preference optimization for language model alignment by applying layer-wide causal patching between a base model and its tuned counterpart across human preference pairs. We implement our methodology on \textit{Llama-3.2-1B}, and find that alignment is spatially localized: mid-layer activations encode a distinct subspace that causally determines reward-consistent behavior, while early and late layers remain largely unaffected. Utilizing LASSO regression, we also find that only a small number of layers possess non-zero coefficients linking activation distances to reward gains. Overall, we show that, at least for some language models, alignment from human-based, preferential tuning is a directional, low rank process, rather than diffuse and parameteric.
- Abstract(参考訳): 強化学習フレームワーク、特に人間のアノテーションを利用したフレームワークは、言語モデルのアウトプットを特定の行動ポリシーやガイドラインに合わせるように調整する、好みの微調整の手法として人気が高まっている。
ヒューマンフィードバックによる強化学習(Reinforcement Learning through Human Feedback, RLHF)は、この種のフレームワークの最も一般的な実装である。
しかし、そのようなアライメントの達成に関する内部的な作業はほとんど不透明なままである。
本研究では,言語モデルアライメントの選好最適化を,基本モデルと人間の選好ペア間の階層的因果パッチの適用により体系的に解析する。
この手法をtextit{Llama-3.2-1B} 上で実装し、アライメントが空間的局所化されていることを発見した。
LASSOレグレッションを利用すると、活性化距離を報酬ゲインにリンクする非ゼロ係数を持つのは少数の層のみである。
全体として、少なくともいくつかの言語モデルでは、人間の手による優先的なチューニングは、拡散やパラメータよりも、指向性で低ランクなプロセスであることが示される。
関連論文リスト
- Rectifying Shortcut Behaviors in Preference-based Reward Learning [46.09046818725698]
強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-21T20:08:32Z) - Hierarchical Alignment: Surgical Fine-Tuning via Functional Layer Specialization in Large Language Models [4.935224714809964]
階層的アライメント(Hierarchical Alignment)は、モデルレイヤの異なる機能ブロックにターゲットDPOを適用する新しい手法である。
具体的には、局所的な層(ローカル・アライン)の整列は文法的な流感を高める。
グローバル層(Global-Align)の整合性は、仮説として事実整合性を改善するが、論理的コヒーレンスを強化するための最も効果的な戦略であることを証明している。
論文 参考訳(メタデータ) (2025-10-14T00:58:34Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。