論文の概要: APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport
- arxiv url: http://arxiv.org/abs/2510.10963v1
- Date: Mon, 13 Oct 2025 03:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.175047
- Title: APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport
- Title(参考訳): APLOT: 最適輸送を用いた適応的選好学習によるロバスト・リワードモデリング
- Authors: Zhuo Li, Yuege Feng, Dandan Guo, Jinpeng Hu, Anningzhe Gao, Xiang Wan,
- Abstract要約: 報酬モデル(RM)は、強化学習(Reinforcement Learning)を通じて、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
本稿では,適応的マージン機構によりBT系RMを効果的に強化する手法を提案する。
- 参考スコア(独自算出の注目度): 37.21695864040979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reward model (RM) plays a crucial role in aligning Large Language Models (LLMs) with human preferences through Reinforcement Learning, where the Bradley-Terry (BT) objective has been recognized as simple yet powerful, specifically for pairwise preference learning. However, BT-based RMs often struggle to effectively distinguish between similar preference responses, leading to insufficient separation between preferred and non-preferred outputs. Consequently, they may easily overfit easy samples and cannot generalize well to Out-Of-Distribution (OOD) samples, resulting in suboptimal performance. To address these challenges, this paper introduces an effective enhancement to BT-based RMs through an adaptive margin mechanism. Specifically, we design to dynamically adjust the RM focus on more challenging samples through margins, based on both semantic similarity and model-predicted reward differences, which is approached from a distributional perspective solvable with Optimal Transport (OT). By incorporating these factors into a principled OT cost matrix design, our adaptive margin enables the RM to better capture distributional differences between chosen and rejected responses, yielding significant improvements in performance, convergence speed, and generalization capabilities. Experimental results across multiple benchmarks demonstrate that our method outperforms several existing RM techniques, showcasing enhanced performance in both In-Distribution (ID) and OOD settings. Moreover, RLHF experiments support our practical effectiveness in better aligning LLMs with human preferences. Our code is available at https://github.com/BIRlz/APLOT
- Abstract(参考訳): 報奨モデル(RM)は、大規模言語モデル(LLM)を強化学習(Reinforcement Learning)を通じて人間の嗜好と整合させる上で重要な役割を担っている。
しかし、BTベースのRMは、しばしば類似の嗜好応答を効果的に区別するのに苦労し、好ましくない出力と好ましくない出力の分離が不十分になる。
したがって、容易に過度に適合し、OF-Distribution (OOD) のサンプルをうまく一般化することができず、結果として準最適性能が得られる。
これらの課題に対処するために、適応的マージン機構によりBTベースのRMを効果的に強化する手法を提案する。
具体的には、最適輸送(OT)で解決可能な分布的視点からアプローチした、意味的類似性とモデル予測報酬差の両方に基づいて、マージンを通してより困難なサンプルに焦点を当て、RMを動的に調整する設計を行う。
これらの因子を基本的OTコスト行列設計に組み込むことで、RMが選択された応答と拒否された応答の分布差をよりよく把握し、性能、収束速度、一般化能力を大幅に向上させることができる。
複数のベンチマークによる実験結果から,本手法は既存のRM技術よりも優れており,In-Distribution (ID) とOOD設定の両方の性能向上が示されている。
さらに、RLHF実験は、LLMと人間の嗜好の整合性を向上する実践的効果を支えている。
私たちのコードはhttps://github.com/BIRlz/APLOTで利用可能です。
関連論文リスト
- Enhancing Reasoning for Diffusion LLMs via Distribution Matching Policy Optimization [44.14678335188207]
拡散大言語モデル(dLLM)は自己回帰大言語モデル(AR-LLM)の代替として有望である
強化学習(RL)は、推論などの重要なタスクにおいて、AR-LLMと同等のパフォーマンスを達成するために、dLLMにとって重要なコンポーネントである。
本稿では,原理的かつ理論的に基礎付けられたRL微調整法である分散マッチングポリシー最適化(DMPO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T13:59:50Z) - CRPO: Confidence-Reward Driven Preference Optimization for Machine Translation [20.959453238159863]
大規模言語モデル(LLM)は自然言語処理タスクにおいて大きな可能性を示しているが、機械翻訳(MT)への応用は依然として難しい。
直接選好最適化(DPO)は、よりシンプルで効率的な代替手段として登場したが、その性能は好みデータの品質に大きく依存している。
本稿では,報酬スコアとモデル信頼度を組み合わせて微調整のためのデータ選択を改善する新しい手法であるCRPOを提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:47Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。