論文の概要: Optimal Transport for LLM Reward Modeling from Noisy Preference
- arxiv url: http://arxiv.org/abs/2605.06036v1
- Date: Thu, 07 May 2026 11:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.723
- Title: Optimal Transport for LLM Reward Modeling from Noisy Preference
- Title(参考訳): 雑音を考慮したLLM逆流モデリングのための最適輸送
- Authors: Licheng Pan, Haochen Yang, Haoxuan Li, Yunsheng Lu, Yongqi Tong, Yinuo Wang, Shijian Wang, Zhixuan Chu, Lei Shen, Yuan Lu, Hao Wang,
- Abstract要約: 最適輸送を基盤としたフレームワークであるSelectiveRMを提案する。
まず、モデル予測の分布と嗜好データとを一致させるために、整合性差分法を考案する。
次に、部分輸送による質量緩和機構を組み込む。
これにより、意味的一貫性に矛盾するノイズの多い選好を持つサンプルを自律的に排除することができる。
- 参考スコア(独自算出の注目度): 21.518348751984433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are fundamental to Reinforcement Learning from Human Feedback (RLHF), yet real-world datasets are inevitably corrupted by noisy preference. Conventional training objectives tend to overfit these errors, while existing denoising approaches often rely on homogeneous noise assumptions that fail to capture the complexity of linguistic preferences. To handle these challenges, we propose SelectiveRM, a framework grounded in optimal transport. We first devise a Joint Consistency Discrepancy to align the distribution of model predictions with preference data. Furthermore, to address the limitation of strict mass conservation which compels the model to fit outliers, we incorporate a Mass Relaxation mechanism via partial transport. This enables the autonomous exclusion of samples with noisy preference that contradict semantic consistency. Theoretically, we demonstrate that SelectiveRM optimizes a tighter upper bound on the unobserved clean risk. Extensive experiments validate that our approach significantly outperforms state-of-the-art baselines across diverse benchmarks.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)のリワードモデルは基本的なものだが、現実のデータセットはノイズの多い好みによって必然的に破損する。
従来の訓練目的はこれらの誤りに過度に適合する傾向があるが、既存の認知的アプローチは、言語的嗜好の複雑さを捉えるのに失敗する均質なノイズ仮定に依存していることが多い。
これらの課題に対処するため,最適な輸送を基盤としたフレームワークであるSelectiveRMを提案する。
まず、モデル予測の分布と嗜好データとを一致させるために、整合性差分法を考案する。
さらに, モデルが外層に適合する厳密な質量保存の限界に対処するため, 部分輸送による質量緩和機構を組み込んだ。
これにより、意味的一貫性に矛盾するノイズの多い選好を持つサンプルを自律的に排除することができる。
理論的には、SelectiveRMは、観測されていないクリーンリスクに対してより厳密な上限を最適化する。
大規模な実験により、我々のアプローチは様々なベンチマークで最先端のベースラインを大幅に上回っていることが検証された。
関連論文リスト
- Anomaly-Preference Image Generation [41.96735569500412]
本稿では,Anomaly Preference Optimizationを導入する。Anomaly Preference Optimizationは,Anomaly Generationを優先学習問題として再構成する新しいパラダイムである。
我々は,本手法が既存のベースラインを著しく上回り,現実主義と多様性の両面で最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2026-05-04T10:37:09Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - How Well Can Preference Optimization Generalize Under Noisy Feedback? [7.374590753074647]
優先最適化は、人間のフィードバックに基づいて、好ましくない応答と好ましくない応答を区別するモデルを訓練する。
既存の研究の多くはノイズのないフィードバックを前提としているが、これは人間の判断に固有の誤りや矛盾のため非現実的である。
本稿では,雑音フィードバックが優先最適化に与える影響を考察し,これらの条件下での一般化保証を提供する。
論文 参考訳(メタデータ) (2025-10-01T20:56:31Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。