論文の概要: Reward Shaping for Inference-Time Alignment: A Stackelberg Game Perspective
- arxiv url: http://arxiv.org/abs/2602.02572v1
- Date: Sat, 31 Jan 2026 05:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.946621
- Title: Reward Shaping for Inference-Time Alignment: A Stackelberg Game Perspective
- Title(参考訳): 推論時間アライメントのためのリワードシェイピング:Stackelbergのゲームパースペクティブ
- Authors: Haichuan Wang, Tao Lin, Lingkai Kong, Ce Li, Hezi Jiang, Milind Tambe,
- Abstract要約: 簡単な報酬形成手法が最適報酬モデルに効果的に近似できることを示す。
提案手法は平均報酬を継続的に改善し,評価設定の平均値に対して66%以上の利得率を達成する。
- 参考スコア(独自算出の注目度): 33.36936642383929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing alignment methods directly use the reward model learned from user preference data to optimize an LLM policy, subject to KL regularization with respect to the base policy. This practice is suboptimal for maximizing user's utility because the KL regularization may cause the LLM to inherit the bias in the base policy that conflicts with user preferences. While amplifying rewards for preferred outputs can mitigate this bias, it also increases the risk of reward hacking. This tradeoff motivates the problem of optimally designing reward models under KL regularization. We formalize this reward model optimization problem as a Stackelberg game, and show that a simple reward shaping scheme can effectively approximate the optimal reward model. We empirically evaluate our method in inference-time alignment settings and demonstrate that it integrates seamlessly into existing alignment methods with minimal overhead. Our method consistently improves average reward and achieves win-tie rates exceeding 66% against all baselines, averaged across evaluation settings.
- Abstract(参考訳): 既存のアライメント手法では,ユーザ嗜好データから得られた報酬モデルを直接利用して,基本方針に対するKL正規化を前提としたLLMポリシーを最適化する。
KL規則化は、LLMがユーザの好みに反する基本方針のバイアスを継承する可能性があるためである。
望ましいアウトプットに対する報酬の増幅は、このバイアスを軽減する一方で、報酬ハッキングのリスクも増大させる。
このトレードオフは、KL正規化の下で報酬モデルを最適に設計する問題を動機付けている。
この報酬モデル最適化問題をStackelbergのゲームとして定式化し、簡単な報酬形成スキームが最適報酬モデルを効果的に近似できることを示す。
我々は,提案手法を推論時アライメント設定で実証的に評価し,最小限のオーバーヘッドで既存のアライメント手法とシームレスに統合できることを実証した。
提案手法は平均報酬を継続的に改善し,評価設定の平均値に対して66%以上の利得率を達成する。
関連論文リスト
- CREAM: Consistency Regularized Self-Rewarding Language Models [34.325289477993586]
自己回帰型大規模言語モデル (LLM) は, 優先データに対する人間のアノテーションを必要とせずに, LLM-as-a-Judge を用いてアライメント性能を向上させることに成功した。
しかし、報酬とランキングの正確性は保証されていないため、精度の高い報酬と高品質な選好データを保証するのに不可欠である。
本稿では,各イテレーション間の報酬の整合性を活用し,自己回帰訓練を規則化する一貫性正規化sElf-rewarding lAnguage Model(CREAM)を提案する。
論文 参考訳(メタデータ) (2024-10-16T16:51:01Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。