論文の概要: SteerX: Disentangled Steering for LLM Personalization
- arxiv url: http://arxiv.org/abs/2510.22256v1
- Date: Sat, 25 Oct 2025 11:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.004017
- Title: SteerX: Disentangled Steering for LLM Personalization
- Title(参考訳): SteerX: LLMパーソナライゼーションのためのアンタングルステアリング
- Authors: Xiaoyan Zhao, Ming Yan, Yilun Qiu, Haoting Ni, Yang Zhang, Fuli Feng, Hong Cheng, Tat-Seng Chua,
- Abstract要約: 大規模言語モデル(LLM)は近年顕著な成功を収めており、幅広いアプリケーションを可能にしている。
このようなアシスタントを構築する上で重要な要素は、ユーザの好みやニーズが多岐にわたるため、LLMをパーソナライズすることである。
本稿では、好みに依存しないコンポーネントから選好駆動コンポーネントを分離するSteerXを提案する。
- 参考スコア(独自算出の注目度): 75.89038195784701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable success in recent years, enabling a wide range of applications, including intelligent assistants that support users' daily life and work. A critical factor in building such assistants is personalizing LLMs, as user preferences and needs vary widely. Activation steering, which directly leverages directions representing user preference in the LLM activation space to adjust its behavior, offers a cost-effective way to align the model's outputs with individual users. However, existing methods rely on all historical data to compute the steering vector, ignoring that not all content reflects true user preferences, which undermines the personalization signal. To address this, we propose SteerX, a disentangled steering method that isolates preference-driven components from preference-agnostic components. Grounded in causal inference theory, SteerX estimates token-level causal effects to identify preference-driven tokens, transforms these discrete signals into a coherent description, and then leverages them to steer personalized LLM generation. By focusing on the truly preference-driven information, SteerX produces more accurate activation steering vectors and enhances personalization. Experiments on two representative steering backbone methods across real-world datasets demonstrate that SteerX consistently enhances steering vector quality, offering a practical solution for more effective LLM personalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年顕著な成功を収めており、ユーザの日常生活や作業を支援するインテリジェントアシスタントを含む幅広いアプリケーションを可能にしている。
このようなアシスタントを構築する上で重要な要素は、ユーザの好みやニーズが多岐にわたるため、LLMをパーソナライズすることである。
アクティベーションステアリングは、LCMアクティベーション空間におけるユーザの好みを表す方向を直接利用して、その振る舞いを調整することで、モデルの出力を個々のユーザと整合させるコスト効率のよい方法を提供する。
しかし、既存の手法では、すべてのコンテンツが真のユーザの好みを反映しているわけではなく、パーソナライズシグナルを損なうため、ステアリングベクトルを計算するためにすべての履歴データに依存している。
そこで本稿では,好みに依存しないコンポーネントから選好駆動のコンポーネントを分離するアンタングル型ステアリング手法であるSteerXを提案する。
因果推論理論に基づいて、SteerXはトークンレベルの因果効果を推定し、好み駆動のトークンを識別し、これらの離散信号をコヒーレントな記述に変換し、それらをパーソナライズされたLCM生成に活用する。
真の嗜好駆動情報に焦点を当てることで、SteerXはより正確なアクティベーションステアリングベクターを生成し、パーソナライゼーションを強化する。
実世界のデータセットにまたがる2つの代表的なステアリングバックボーン手法の実験により、SteerXはステアリングベクターの品質を一貫して向上し、より効果的なLCMパーソナライズのための実用的なソリューションを提供することを示した。
関連論文リスト
- ExpertSteer: Intervening in LLMs through Expert Knowledge [86.98098988779809]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - Measuring What Makes You Unique: Difference-Aware User Modeling for Enhancing LLM Personalization [68.79814761867314]
本稿では,Large Language Models (LLM) のパーソナライゼーションを強化するために,差分認識パーソナライズ学習(DPL)を提案する。
DPLは、戦略的に代表ユーザを比較のために選択し、タスク関連の違いを抽出するための構造化標準を確立する。
実世界のデータセットの実験により、DPLはLLMのパーソナライゼーションを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-04T09:53:26Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。