論文の概要: LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
- arxiv url: http://arxiv.org/abs/2510.06915v1
- Date: Wed, 08 Oct 2025 11:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.466792
- Title: LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
- Title(参考訳): LongRM: Reward Modelingのコンテキスト境界の解明とアンロック
- Authors: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang,
- Abstract要約: 長コンテキストRM評価に特化して設計されたベンチマークであるLong-RewardBenchを紹介する。
予備研究により、最先端の生成型RMでさえ、長いコンテキストシナリオにおいて重大な脆弱性を示すことが明らかとなった。
本稿では、任意のモデルを堅牢なLong-context RMに効果的にスケールする一般的なマルチステージトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 45.520815757751194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward model (RM) plays a pivotal role in aligning large language model (LLM) with human preferences. As real-world applications increasingly involve long history trajectories, e.g., LLM agent, it becomes indispensable to evaluate whether a model's responses are not only high-quality but also grounded in and consistent with the provided context. Yet, current RMs remain confined to short-context settings and primarily focus on response-level attributes (e.g., safety or helpfulness), while largely neglecting the critical dimension of long context-response consistency. In this work, we introduce Long-RewardBench, a benchmark specifically designed for long-context RM evaluation, featuring both Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that even state-of-the-art generative RMs exhibit significant fragility in long-context scenarios, failing to maintain context-aware preference judgments. Motivated by the analysis of failure patterns observed in model outputs, we propose a general multi-stage training strategy that effectively scales arbitrary models into robust Long-context RMs (LongRMs). Experiments show that our approach not only substantially improves performance on long-context evaluation but also preserves strong short-context capability. Notably, our 8B LongRM outperforms much larger 70B-scale baselines and matches the performance of the proprietary Gemini 2.5 Pro model.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を担っている。
現実世界のアプリケーションは、LLMエージェントのような長い歴史の軌跡をますます含んでいるため、モデルの応答が高品質であるだけでなく、提供されたコンテキストに根ざし、一貫性があるかどうかを評価することは不可欠である。
しかし、現在のRMは、短期的なコンテキスト設定に限定されており、主に応答レベルの属性(例えば、安全性や有用性)に焦点を当てています。
本稿では,Pairwise ComparisonとBest-of-Nタスクの両方を特徴とする長コンテキストRM評価のためのベンチマークであるLong-RewardBenchを紹介する。
我々の予備研究は、最先端の生成型RMでさえ、長期コンテキストシナリオにおいて重大な脆弱性を示し、文脈認識の嗜好判断を維持できないことを明らかにした。
モデル出力で観測される故障パターンの分析により、任意のモデルを堅牢なLong-context RM(LongRMs)に効果的にスケールする一般的な多段階トレーニング戦略を提案する。
実験により,本手法は長文評価の性能を大幅に向上するだけでなく,短文評価能力も向上することが示された。
特に、私たちの8B LongRMは70Bスケールのベースラインをはるかに上回り、プロプライエタリなGemini 2.5 Proモデルのパフォーマンスに匹敵します。
関連論文リスト
- QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。
QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。
QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T09:31:55Z) - Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision [40.63870977649693]
Chain-of-Thoughtプロンプトは、多段階推論を約束するが、長文シナリオの有効性は未検討のままである。
本稿では,LongRePSを提案する。LongRePSは,長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるフレームワークである。
本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
論文 参考訳(メタデータ) (2025-02-28T07:15:12Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。