論文の概要: Robust Multi-Objective Controlled Decoding of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.08796v1
- Date: Tue, 11 Mar 2025 18:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.497621
- Title: Robust Multi-Objective Controlled Decoding of Large Language Models
- Title(参考訳): 大規模言語モデルのロバスト多目的制御復号化
- Authors: Seongho Son, William Bankes, Sangwoong Yoon, Shyam Sundhar Ramesh, Xiaohang Tang, Ilija Bogunovic,
- Abstract要約: 本稿では,ロバスト多目的復号法(RMOD)を提案する。
RMODは、報酬重み付けとサンプリングポリシーの間の最大2プレーヤゲームとして頑健な復号問題を定式化する。
我々は,ゲームが最悪の重みを求めるために凸最適化問題に還元されるのに対して,最良の応答ポリシは解析的に計算可能であることを示す。
- 参考スコア(独自算出の注目度): 14.58153072993207
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Test-time alignment of Large Language Models (LLMs) to human preferences offers a flexible way to generate responses aligned to diverse objectives without extensive retraining of LLMs. Existing methods achieve alignment to multiple objectives simultaneously (e.g., instruction-following, helpfulness, conciseness) by optimizing their corresponding reward functions. However, they often rely on predefined weights or optimize for averages, sacrificing one objective for another and leading to unbalanced outcomes. To address this, we introduce Robust Multi-Objective Decoding (RMOD), a novel inference-time algorithm that optimizes for improving worst-case rewards. RMOD formalizes the robust decoding problem as a maximin two-player game between reward weights and the sampling policy, solving for the Nash equilibrium. We show that the game reduces to a convex optimization problem to find the worst-case weights, while the best response policy can be computed analytically. We also introduce a practical RMOD variant designed for efficient decoding with contemporary LLMs, incurring minimal computational overhead compared to non-robust Multi-Objective Decoding (MOD) methods. Our experimental results showcase the effectiveness of RMOD in generating responses equitably aligned with diverse objectives, outperforming baselines up to 20%.
- Abstract(参考訳): 大規模言語モデル(LLM)を人間の嗜好に合わせるテストタイムアライメントは、LLMを広範囲に再トレーニングすることなく、多様な目的に整合した応答を生成する柔軟な方法を提供する。
既存の方法は、対応する報酬関数を最適化することにより、複数の目的(例えば、命令追従、役立ち、簡潔さ)を同時にアライメントする。
しかし、それらはしばしば事前定義された重みに頼り、平均を最適化し、別の目的を犠牲にし、バランスの取れない結果をもたらす。
これを解決するために、最悪の場合の報酬を改善するために最適化された新しい推論時間アルゴリズムであるRobust Multi-Objective Decoding (RMOD)を導入する。
RMODはロバスト復号問題を報酬重みとサンプリングポリシーの間の最大2プレイヤーゲームとして定式化し、ナッシュ均衡を解く。
我々は,ゲームが最悪の重みを求めるために凸最適化問題に還元されるのに対して,最良の応答ポリシは解析的に計算可能であることを示す。
また,現代LLMを用いた効率的な復号化のための実用的なRMODモデルを導入し,非ロバストな多目的復号法と比較して計算オーバーヘッドが最小限に抑えられた。
実験の結果, RMODの有効性は, 多様な目的に等しく一致し, ベースラインを最大20%上回ることがわかった。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Projection Optimization: A General Framework for Multi-Objective and Multi-Group RLHF [13.612504157832708]
強化学習とヒューマンフィードバック(Reinforcement Learning with Human Feedback, RLHF)は、機械学習モデルと人間の好みを一致させる、広く使われている微調整アプローチである。
本研究では,非線形アグリゲーション問題を一連のサブプロブレムに変換し,フレームワークを多群シナリオに拡張する。
我々は,アルゴリズムフレームワークがサブ線形後悔を実現し,報酬のないアルゴリズムに容易に適応できることを実証した。
論文 参考訳(メタデータ) (2025-02-21T01:56:52Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - IterIS: Iterative Inference-Solving Alignment for LoRA Merging [14.263218227928729]
低ランク適応(LoRA)は、特定の下流タスクのために様々な領域にまたがる大きなモデルを微調整するために広く使われている。
LoRAマージは、データのプライバシを維持しながら複数のLoRAを統一アダプタに結合することで、効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-21T19:04:02Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization [42.92248233465095]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。