論文の概要: VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.15801v1
- Date: Wed, 21 May 2025 17:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.818523
- Title: VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models
- Title(参考訳): VerifyBench: 大規模言語モデルのための参照ベースリワードシステムのベンチマーク
- Authors: Yuchen Yan, Jin Jiang, Zhenbang Ren, Yijun Li, Xudong Cai, Yang Liu, Xin Xu, Mengdi Zhang, Jian Shao, Yongliang Shen, Jun Xiao, Yueting Zhuang,
- Abstract要約: OpenAI o1とDeepSeek-R1は、推論の領域で素晴らしいパフォーマンスを達成した。
彼らのトレーニングの重要な要素は、強化学習に検証可能な報酬を取り入れることである。
既存の報酬ベンチマークでは、参照ベースの報酬システムの評価は行われていない。
- 参考スコア(独自算出の注目度): 55.39064621869925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models such as OpenAI o1 and DeepSeek-R1 have achieved remarkable performance in the domain of reasoning. A key component of their training is the incorporation of verifiable rewards within reinforcement learning (RL). However, existing reward benchmarks do not evaluate reference-based reward systems, leaving researchers with limited understanding of the accuracy of verifiers used in RL. In this paper, we introduce two benchmarks, VerifyBench and VerifyBench-Hard, designed to assess the performance of reference-based reward systems. These benchmarks are constructed through meticulous data collection and curation, followed by careful human annotation to ensure high quality. Current models still show considerable room for improvement on both VerifyBench and VerifyBench-Hard, especially smaller-scale models. Furthermore, we conduct a thorough and comprehensive analysis of evaluation results, offering insights for understanding and developing reference-based reward systems. Our proposed benchmarks serve as effective tools for guiding the development of verifier accuracy and the reasoning capabilities of models trained via RL in reasoning tasks.
- Abstract(参考訳): OpenAI o1やDeepSeek-R1のような大規模な推論モデルは、推論の領域で顕著なパフォーマンスを達成した。
彼らのトレーニングの重要な要素は、強化学習(RL)に検証可能な報酬を取り入れることである。
しかし、既存の報酬ベンチマークでは参照ベースの報酬システムを評価しておらず、研究者はRLで使用される検証器の精度を限定的に理解している。
本稿では,参照型報酬システムの性能評価を目的とした,VerifyBenchとVerifyBench-Hardの2つのベンチマークを紹介する。
これらのベンチマークは、厳密なデータ収集とキュレーションによって構築され、続いて、高い品質を保証するための注意深い人間のアノテーションが続く。
現在のモデルは、VerifyBenchとVerifyBench-Hardの両方、特に小型モデルで改善の余地がある。
さらに,評価結果を包括的かつ包括的に分析し,参照型報酬システムを理解し,開発するための洞察を提供する。
提案するベンチマークは,RLを用いて学習したモデルの検証精度と推論能力の向上を導く効果的なツールとして機能する。
関連論文リスト
- Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - Reinfier and Reintrainer: Verification and Interpretation-Driven Safe Deep Reinforcement Learning Frameworks [36.730973051834376]
本稿では,信頼性の高いDRLモデルを開発するために,検証駆動型ループ内解釈フレームワークReintrainerを提案する。
各イテレーションにおいて、このフレームワークは、トレーニング中のモデルと事前定義されたプロパティの間のギャップをフォーマルな検証を使って測定する。
Reinfierは、簡潔な制約エンコーディング言語DRLPに関連する、ブレークポイント検索と検証駆動型解釈を備えている。
論文 参考訳(メタデータ) (2024-10-19T15:03:26Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。