論文の概要: Libra: Assessing and Improving Reward Model by Learning to Think
- arxiv url: http://arxiv.org/abs/2507.21645v1
- Date: Tue, 29 Jul 2025 10:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.972597
- Title: Libra: Assessing and Improving Reward Model by Learning to Think
- Title(参考訳): Libra: 思考学習によるリワードモデルの評価と改善
- Authors: Meng Zhou, Bei Li, Jiahao Liu, Xiaowen Shi, Yang Bai, Rongxiang Weng, Jingang Wang, Xunliang Cai,
- Abstract要約: 推論シナリオにおける既存の報酬モデルベンチマークの限界に対処するために、推論指向ベンチマーク(Libra Bench)を提案する。
本稿では,学習から思考までの手法を用いて,生成報酬モデルを改善する新しい手法を提案する。
我々は,様々なベンチマークで最新の結果が得られる推論機能を備えた生成的報酬モデルであるLibra-RMシリーズを開発した。
- 参考スコア(独自算出の注目度): 37.22776255575947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has significantly improved the reasoning ability of large language models. However, current reward models underperform in challenging reasoning scenarios and predominant RL training paradigms rely on rule-based or reference-based rewards, which impose two critical limitations: 1) the dependence on finely annotated reference answer to attain rewards; and 2) the requirement for constrained output format. These limitations fundamentally hinder further RL data scaling and sustained enhancement of model reasoning performance. To address these limitations, we propose a comprehensive framework for evaluating and improving the performance of reward models in complex reasoning scenarios. We first present a reasoning-oriented benchmark (Libra Bench), systematically constructed from a diverse collection of challenging mathematical problems and advanced reasoning models, to address the limitations of existing reward model benchmarks in reasoning scenarios. We further introduce a novel approach for improving the generative reward model via learning-to-think methodologies. Based on the proposed approach, we develop Libra-RM series, a collection of generative reward models with reasoning capabilities that achieve state-of-the-art results on various benchmarks. Comprehensive downstream experiments are conducted and the experimental results demonstrate the correlation between our Libra Bench and downstream application, and the potential of Libra-RM to further improve reasoning models with unlabeled data.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデルの推論能力を大幅に向上させた。
しかしながら、現在の報酬モデルは、挑戦的な推論シナリオや、主要なRLトレーニングパラダイムでは、ルールベースまたは参照ベースの報酬に依存しており、2つの重要な制限を課している。
1) 報酬を得るための細かな注釈付き基準回答への依存
2)制約付き出力フォーマットの要件。
これらの制限は、RLデータのスケーリングを阻害し、モデル推論性能の持続的向上を阻害する。
これらの制約に対処するため、複雑な推論シナリオにおける報酬モデルの性能評価と改善のための包括的なフレームワークを提案する。
まず,従来の推論シナリオにおける報酬モデルベンチマークの限界に対処するため,多種多様な問題と高度な推論モデルから体系的に構築した推論指向ベンチマーク(Libra Bench)を提案する。
さらに、学習から思考への方法論による生成報酬モデルの改善のための新しいアプローチを導入する。
提案手法に基づいて,様々なベンチマークで最新の結果が得られる推論機能を備えた生成報酬モデルであるLibra-RMシリーズを開発した。
総合的な下流実験を行い、実験結果は、我々のLibra Benchと下流アプリケーションとの相関と、ラベルなしデータを用いた推論モデルをさらに改善するLibra-RMの可能性を示す。
関連論文リスト
- Large Reasoning Models are not thinking straight: on the unreliability of thinking trajectories [0.0]
強化学習(RL)を通じてトレーニングされたLarge Language Models(LLMs)は、最近、推論ベンチマークで印象的な結果を得た。
しかし、成長する証拠は、これらのモデルがしばしば長いが効果のない思考の連鎖(CoT)を生成することを示している。
モデルが明示的に提供しても正しい解を無視し、代わりに不要な推論ステップを生成し続けるという、過度な考えの新たな証拠を提示する。
論文 参考訳(メタデータ) (2025-07-01T12:14:22Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - On the Mechanism of Reasoning Pattern Selection in Reinforcement Learning for Language Models [17.36077163968198]
検証リワード(RLVR)を用いた強化学習の体系的研究について述べる。
RLVR学習モデルでは,高精度推論パターンが優先的に採用されている。
我々はRLVRの収束とトレーニングのダイナミクスに関する理論的解析を開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。
本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文 参考訳(メタデータ) (2025-04-07T11:34:48Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。