論文の概要: Libra: Assessing and Improving Reward Model by Learning to Think
- arxiv url: http://arxiv.org/abs/2507.21645v1
- Date: Tue, 29 Jul 2025 10:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.972597
- Title: Libra: Assessing and Improving Reward Model by Learning to Think
- Title(参考訳): Libra: 思考学習によるリワードモデルの評価と改善
- Authors: Meng Zhou, Bei Li, Jiahao Liu, Xiaowen Shi, Yang Bai, Rongxiang Weng, Jingang Wang, Xunliang Cai,
- Abstract要約: 推論シナリオにおける既存の報酬モデルベンチマークの限界に対処するために、推論指向ベンチマーク(Libra Bench)を提案する。
本稿では,学習から思考までの手法を用いて,生成報酬モデルを改善する新しい手法を提案する。
我々は,様々なベンチマークで最新の結果が得られる推論機能を備えた生成的報酬モデルであるLibra-RMシリーズを開発した。
- 参考スコア(独自算出の注目度): 37.22776255575947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has significantly improved the reasoning ability of large language models. However, current reward models underperform in challenging reasoning scenarios and predominant RL training paradigms rely on rule-based or reference-based rewards, which impose two critical limitations: 1) the dependence on finely annotated reference answer to attain rewards; and 2) the requirement for constrained output format. These limitations fundamentally hinder further RL data scaling and sustained enhancement of model reasoning performance. To address these limitations, we propose a comprehensive framework for evaluating and improving the performance of reward models in complex reasoning scenarios. We first present a reasoning-oriented benchmark (Libra Bench), systematically constructed from a diverse collection of challenging mathematical problems and advanced reasoning models, to address the limitations of existing reward model benchmarks in reasoning scenarios. We further introduce a novel approach for improving the generative reward model via learning-to-think methodologies. Based on the proposed approach, we develop Libra-RM series, a collection of generative reward models with reasoning capabilities that achieve state-of-the-art results on various benchmarks. Comprehensive downstream experiments are conducted and the experimental results demonstrate the correlation between our Libra Bench and downstream application, and the potential of Libra-RM to further improve reasoning models with unlabeled data.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデルの推論能力を大幅に向上させた。
しかしながら、現在の報酬モデルは、挑戦的な推論シナリオや、主要なRLトレーニングパラダイムでは、ルールベースまたは参照ベースの報酬に依存しており、2つの重要な制限を課している。
1) 報酬を得るための細かな注釈付き基準回答への依存
2)制約付き出力フォーマットの要件。
これらの制限は、RLデータのスケーリングを阻害し、モデル推論性能の持続的向上を阻害する。
これらの制約に対処するため、複雑な推論シナリオにおける報酬モデルの性能評価と改善のための包括的なフレームワークを提案する。
まず,従来の推論シナリオにおける報酬モデルベンチマークの限界に対処するため,多種多様な問題と高度な推論モデルから体系的に構築した推論指向ベンチマーク(Libra Bench)を提案する。
さらに、学習から思考への方法論による生成報酬モデルの改善のための新しいアプローチを導入する。
提案手法に基づいて,様々なベンチマークで最新の結果が得られる推論機能を備えた生成報酬モデルであるLibra-RMシリーズを開発した。
総合的な下流実験を行い、実験結果は、我々のLibra Benchと下流アプリケーションとの相関と、ラベルなしデータを用いた推論モデルをさらに改善するLibra-RMの可能性を示す。
関連論文リスト
- Large Reasoning Models are not thinking straight: on the unreliability of thinking trajectories [0.0]
強化学習(RL)を通じてトレーニングされたLarge Language Models(LLMs)は、最近、推論ベンチマークで印象的な結果を得た。
しかし、成長する証拠は、これらのモデルがしばしば長いが効果のない思考の連鎖(CoT)を生成することを示している。
モデルが明示的に提供しても正しい解を無視し、代わりに不要な推論ステップを生成し続けるという、過度な考えの新たな証拠を提示する。
論文 参考訳(メタデータ) (2025-07-01T12:14:22Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。