論文の概要: Toward Preference-aligned Large Language Models via Residual-based Model Steering
- arxiv url: http://arxiv.org/abs/2509.23982v1
- Date: Sun, 28 Sep 2025 17:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.5701
- Title: Toward Preference-aligned Large Language Models via Residual-based Model Steering
- Title(参考訳): 残差モデルステアリングによる参照整合大言語モデルに向けて
- Authors: Lucio La Cava, Andrea Tagarelli,
- Abstract要約: 本稿では,Residual Steering (PaLRS) を用いた大規模言語モデルの参照アライメントを提案する。
PaLRSは、Large Language Modelsの残留ストリームに符号化された好み信号を利用する。
各種小型オープンソースLLM上でのPaLRSの評価を行った。
- 参考スコア(独自算出の注目度): 9.241565393225953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference alignment is a critical step in making Large Language Models (LLMs) useful and aligned with (human) preferences. Existing approaches such as Reinforcement Learning from Human Feedback or Direct Preference Optimization typically require curated data and expensive optimization over billions of parameters, and eventually lead to persistent task-specific models. In this work, we introduce Preference alignment of Large Language Models via Residual Steering (PaLRS), a training-free method that exploits preference signals encoded in the residual streams of LLMs. From as few as one hundred preference pairs, PaLRS extracts lightweight, plug-and-play steering vectors that can be applied at inference time to push models toward preferred behaviors. We evaluate PaLRS on various small-to-medium-scale open-source LLMs, showing that PaLRS-aligned models achieve consistent gains on mathematical reasoning and code generation benchmarks while preserving baseline general-purpose performance. Moreover, when compared to DPO-aligned models, they perform better with huge time savings. Our findings highlight that PaLRS offers an effective, much more efficient and flexible alternative to standard preference optimization pipelines, offering a training-free, plug-and-play mechanism for alignment with minimal data.
- Abstract(参考訳): 優先度アライメントは、Large Language Models(LLM)を有用にし、(人間)の好みに合わせるための重要なステップである。
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback)や直接優先度最適化(Direct Preference Optimization)のような既存のアプローチでは、通常、数十億のパラメータに対してキュレートされたデータと高価な最適化を必要とし、最終的には永続的なタスク固有モデルにつながる。
本研究では,LLMの残ストリームに符号化された好み信号を利用するトレーニング不要なPaLRS(Residual Steering)を用いて,大規模言語モデルの参照アライメントを提案する。
ほんの数百の選好ペアから、PaLRSは軽量でプラグアンドプレイのステアリングベクターを抽出し、推論時に適用してモデルを望ましい行動へプッシュする。
そこで我々はPaLRSを様々な小規模オープンソースLLM上で評価し,PaLRS対応モデルがベースラインの汎用性能を維持しつつ,数学的推論やコード生成ベンチマークにおいて一貫した利得が得られることを示した。
さらに、DPOに準拠したモデルと比較すると、大幅な時間節約でパフォーマンスが向上する。
この結果から,PaLRSは,最小限のデータとのアライメントのためのトレーニング不要なプラグイン・アンド・プレイ機構を備えた,標準的な優先最適化パイプラインに代わる,効率的で,はるかに効率的かつ柔軟な代替手段を提供することがわかった。
関連論文リスト
- Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。