論文の概要: Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling
- arxiv url: http://arxiv.org/abs/2510.23631v1
- Date: Fri, 24 Oct 2025 03:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.298331
- Title: Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling
- Title(参考訳): ペアワイズを超えて:ランク付き選択モデリングによるLLMアライメントの強化
- Authors: Yuxuan Tang, Yifan Feng,
- Abstract要約: 選好最適化を(ランク付けされた)選好モデルでブリッジする統合フレームワークであるランク付き選好最適化(RCPO)を提案する。
ランク付けされた選好データを直接活用し、適切な選択モデルと組み合わせることで、より効果的なアライメントが得られることを示す。
- 参考スコア(独自算出の注目度): 22.480423145082856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment of large language models (LLMs) has predominantly relied on pairwise preference optimization, where annotators select the better of two responses to a prompt. While simple, this approach overlooks the opportunity to learn from richer forms of human feedback, such as multiwise comparisons and top-$k$ rankings. We propose Ranked Choice Preference Optimization (RCPO), a unified framework that bridges preference optimization with (ranked) choice modeling via maximum likelihood estimation. The framework is flexible, supporting both utility-based and rank-based choice models. It subsumes several existing pairwise methods (e.g., DPO, SimPO), while providing principled training objectives for richer feedback formats. We instantiate this framework with two representative ranked choice models (Multinomial Logit and Mallows-RMJ). Empirical studies on Llama-3-8B-Instruct and Gemma-2-9B-it across AlpacaEval 2 and Arena-Hard benchmarks show that RCPO consistently outperforms competitive baselines. RCPO shows how directly leveraging ranked preference data, combined with the right choice models, yields more effective alignment. It offers a versatile and extensible foundation for incorporating (ranked) choice modeling into LLM training.
- Abstract(参考訳): 大規模言語モデル (LLM) のアライメントは、アノテータがプロンプトに対する2つの応答の長所を選択する場合、ペアの好みの最適化に大きく依存している。
単純ではあるが、このアプローチは、マルチワイズ比較や上位$kのランキングなど、よりリッチな人間のフィードバックから学ぶ機会を見落としている。
ランク付き選択選好最適化(RCPO)は,選択選好最適化と(ランク付き)選択選好モデルとの橋渡しを行う統合フレームワークである。
フレームワークは柔軟で、ユーティリティベースとランクベースの両方の選択モデルをサポートしている。
既存のペアワイズメソッド(例えば、DPO、SimPO)を仮定し、よりリッチなフィードバックフォーマットのための原則化されたトレーニング目標を提供する。
このフレームワークを2つの代表的な選択モデル(Multinomial Logit と Mallows-RMJ)でインスタンス化する。
Llama-3-8B-InstructとGemma-2-9B-itをAlpacaEval 2 と Arena-Hard のベンチマークで比較したところ、RCPO は競争ベースラインを一貫して上回っている。
RCPOは、ランク付けされた選好データを適切な選択モデルと組み合わせることで、より効果的なアライメントを得る方法を示している。
LLMトレーニングに(ランク付けされた)選択モデリングを組み込むための、多用途で拡張可能な基盤を提供する。
関連論文リスト
- RankPO: Preference Optimization for Job-Talent Matching [7.385902340910447]
大規模言語モデル(LLM)のための2段階トレーニングフレームワークを提案する。
最初の段階では、実際のマッチングルールから構築されたデータセット上でモデルをトレーニングするために、対照的な学習アプローチが使用される。
第2段階では、AIで計算したペアの選好とモデルを整合させるために、直接選好最適化(DPO)にインスパイアされた、新しい選好に基づく微調整手法を導入する。
論文 参考訳(メタデータ) (2025-03-13T10:14:37Z) - IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。
この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2025-02-22T10:59:11Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。