論文の概要: Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization
- arxiv url: http://arxiv.org/abs/2604.22345v1
- Date: Fri, 24 Apr 2026 08:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.399772
- Title: Preference Heads in Large Language Models: A Mechanistic Framework for Interpretable Personalization
- Title(参考訳): 大規模言語モデルにおける嗜好の頭文字:解釈可能なパーソナライゼーションのための機械的枠組み
- Authors: Weixu Zhang, Ye Yuan, Changjiang Han, Yuxing Tian, Zipeng Sun, Linfeng Du, Jikun Kang, Hong Kang, Xue Liu, Haolun Wu,
- Abstract要約: 大きな言語モデル(LLM)は強い暗黙のパーソナライズ能力を示すが、既存のほとんどのアプローチでは、この振る舞いをブラックボックスとして扱う。
本研究では,機械論的解釈可能性の観点を採用し,スパースな選好ヘッドの存在を仮定する。
因果マスキング分析により、選好ヘッドを識別する学習自由フレームワークである差分選好ステアリング(DPS)を導入する。
- 参考スコア(独自算出の注目度): 13.050856154190273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit strong implicit personalization ability, yet most existing approaches treat this behavior as a black box, relying on prompt engineering or fine tuning on user data. In this work, we adopt a mechanistic interpretability perspective and hypothesize the existence of a sparse set of Preference Heads, attention heads that encode user specific stylistic and topical preferences and exert a causal influence on generation. We introduce Differential Preference Steering (DPS), a training free framework that (1) identifies Preference Heads through causal masking analysis and (2) leverages them for controllable and interpretable personalization at inference time. DPS computes a Preference Contribution Score (PCS) for each attention head, directly measuring its causal impact on user aligned outputs. During decoding, we contrast model predictions with and without Preference Heads, amplifying the difference between personalized and generic logits to selectively strengthen preference aligned continuations. Experiments on widely used personalization benchmarks across multiple LLMs demonstrate consistent gains in personalization fidelity while preserving content coherence and low computational overhead. Beyond empirical improvements, DPS provides a mechanistic explanation of where and how personalization emerges within transformer architectures. Our implementation is publicly available.
- Abstract(参考訳): 大きな言語モデル(LLM)は強い暗黙のパーソナライズ能力を示すが、既存のほとんどのアプローチでは、この振る舞いをブラックボックスとして扱い、迅速なエンジニアリングやユーザデータへの微調整に依存している。
本研究では,ユーザ固有のスタイルやトピックの嗜好を符号化し,生成に因果的影響を及ぼすような,疎結合な選好ヘッドの存在を,機械的解釈可能性の観点から仮説化する。
本稿では,(1)因果マスキング分析による選好ヘッドを識別する学習自由フレームワークである差分選好ステアリング(DPS)を導入し,(2)推論時のパーソナライズを制御可能かつ解釈可能なものに活用する。
DPSは、各アテンションヘッドに対するPreference Contribution Score(PCS)を計算し、その因果影響を直接測定する。
復号中は、モデル予測とPreference Headsとを対比し、パーソナライズされたロジットとジェネリックロジットの違いを増幅し、好みに整合した継続を選択的に強化する。
複数のLDMにまたがるパーソナライズベンチマークの実験では、コンテンツコヒーレンスと計算オーバーヘッドの低さを保ちながら、パーソナライズ精度が一貫した向上を示した。
実証的な改善の他に、DPSはトランスフォーマーアーキテクチャ内でパーソナライゼーションがどこからどのように現れるのか、というメカニスティックな説明を提供する。
私たちの実装は公開されています。
関連論文リスト
- Learning What Matters Now: Dynamic Preference Inference under Contextual Shifts [8.986181114282559]
本研究は,文脈とともにドリフトする未観測潜伏変数が優先重みを持つ場合の逐次決定問題について検討する。
本稿では,エージェントが嗜好重みに対する確率論的信念を維持する枠組みである動的選好推論(DPI)を提案する。
DPIはその推論された嗜好を新しいレシエーションに適応させ、固定ウェイトや封筒ベースラインよりも高いポストシフト性能を達成する。
論文 参考訳(メタデータ) (2026-03-24T05:22:04Z) - Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。
パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。
我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文 参考訳(メタデータ) (2026-02-12T20:41:22Z) - P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling [66.55381105691818]
P-GenRM(Personalized Generative Reward Model)を提案する。
P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。
さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
論文 参考訳(メタデータ) (2026-02-12T16:07:22Z) - Unveiling Inference Scaling for Difference-Aware User Modeling in LLM Personalization [8.34180795290891]
差分対応推論パーソナライゼーションは、推論スケーリングを活用してパーソナライゼーションを強化することで、差分抽出機構を再構築するフレームワークである。
LLMは、関連する特徴次元を自律的に識別し、構造化された定義と記述を生成する。
論文 参考訳(メタデータ) (2025-11-19T12:35:40Z) - PreferThinker: Reasoning-based Personalized Image Preference Assessment [83.66114370585976]
推論に基づくパーソナライズされた画像嗜好評価フレームワークを提案する。
まず、ユーザーの好みプロファイルを参照画像から予測する。
次に、解釈可能で多次元のスコアと候補画像の評価を提供する。
論文 参考訳(メタデータ) (2025-11-01T16:19:51Z) - POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - NextQuill: Causal Preference Modeling for Enhancing LLM Personalization [82.15961484963256]
因果選好モデルに基づく新しいパーソナライズフレームワークであるNextQuillを紹介する。
この洞察に基づいて、NextQuillは2つの補完的なアライメント戦略を導入した。
複数のパーソナライズベンチマークの実験により、NextQuillはパーソナライズ品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-06-03T02:08:55Z) - PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。