論文の概要: Stackelberg Learning from Human Feedback: Preference Optimization as a Sequential Game
- arxiv url: http://arxiv.org/abs/2512.16626v1
- Date: Thu, 18 Dec 2025 15:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.112885
- Title: Stackelberg Learning from Human Feedback: Preference Optimization as a Sequential Game
- Title(参考訳): 人からのフィードバックから学ぶStackelberg: シークエンシャルゲームとしての優先度最適化
- Authors: Barna Pásztor, Thomas Kleine Buening, Andreas Krause,
- Abstract要約: 優先最適化のための新しいフレームワークである,人間のフィードバックからのStackelberg Learning(SLHF)を紹介する。
SLHFはアライメント問題を2つのポリシー間の逐次移動ゲームとして扱う。
SLHFは様々な選好データセット間で強い整合性を示し,0.5Bから8Bのパラメータにスケールし,推論時間の改善をもたらす。
- 参考スコア(独自算出の注目度): 37.558490049983696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Stackelberg Learning from Human Feedback (SLHF), a new framework for preference optimization. SLHF frames the alignment problem as a sequential-move game between two policies: a Leader, which commits to an action, and a Follower, which responds conditionally on the Leader's action. This approach decomposes preference optimization into a refinement problem for the Follower and an optimization problem against an adversary for the Leader. Unlike Reinforcement Learning from Human Feedback (RLHF), which assigns scalar rewards to actions, or Nash Learning from Human Feedback (NLHF), which seeks a simultaneous-move equilibrium, SLHF leverages the asymmetry of sequential play to capture richer preference structures. The sequential design of SLHF naturally enables inference-time refinement, as the Follower learns to improve the Leader's actions, and these refinements can be leveraged through iterative sampling. We compare the solution concepts of SLHF, RLHF, and NLHF, and lay out key advantages in consistency, data sensitivity, and robustness to intransitive preferences. Experiments on large language models demonstrate that SLHF achieves strong alignment across diverse preference datasets, scales from 0.5B to 8B parameters, and yields inference-time refinements that transfer across model families without further fine-tuning.
- Abstract(参考訳): 優先最適化のための新しいフレームワークである,人間のフィードバックからのStackelberg Learning(SLHF)を紹介する。
SLHFは、アライメント問題を、行動にコミットするリーダー(Lead)と、リーダーの行動に条件付きで応答するフォロワ(Follower)の2つのポリシーの間のシーケンシャルな移動ゲームとして捉えている。
このアプローチは、好みの最適化をフォロワーの洗練問題とリーダーの敵に対する最適化問題に分解する。
アクションにスカラー報酬を割り当てる強化学習(RLHF)や同時移動平衡を求めるナッシュ学習(NLHF)とは異なり、SLHFはシーケンシャルプレイの非対称性を活用してよりリッチな嗜好構造を捉える。
SLHFのシーケンシャルな設計は、Followerがリーダーの行動を改善するために学び、反復的なサンプリングによってこれらの改善を活用できるように、推論時間の改良を可能にする。
SLHF、RLHF、NLHFの解の概念を比較し、一貫性、データ感度、非推移的嗜好に対する堅牢性において重要な利点を提示する。
大規模言語モデルの実験では、SLHFは様々な嗜好データセット、0.5Bから8Bパラメータのスケール、さらに微調整することなくモデルファミリ間で転送される推論時間改善を実現している。
関連論文リスト
- LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。