論文の概要: Long-form RewardBench: Evaluating Reward Models for Long-form Generation
- arxiv url: http://arxiv.org/abs/2603.12963v1
- Date: Fri, 13 Mar 2026 13:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.091694
- Title: Long-form RewardBench: Evaluating Reward Models for Long-form Generation
- Title(参考訳): Long-form RewardBench:Long-form GenerationのためのRewardモデルの評価
- Authors: Hui Huang, Yancheng He, Wei Liu, Muyun Yang, Jiaheng Liu, Kehai Chen, Bing Xu, Conghui Zhu, Hailong Cao, Tiejun Zhao,
- Abstract要約: Long-form RewardBenchは、ロングフォーム生成用に特別に設計された最初の報酬モデリングテストベッドである。
ベンチマークには、QA、RAG、チャット、書き込み、推論の5つの重要なサブタスクが含まれています。
以上の結果から,現在のモデルにはまだ長文報酬モデリング機能が欠けていることが明らかとなった。
- 参考スコア(独自算出の注目度): 61.60385107031075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of reinforcement learning-based alignment highlights the growing importance of reward models. Various benchmarks have been built to evaluate reward models in various domains and scenarios. However, a significant gap remains in assessing reward models for long-form generation, despite its critical role in real-world applications. To bridge this, we introduce Long-form RewardBench, the first reward modeling testbed specifically designed for long-form generation. Our benchmark encompasses five key subtasks: QA, RAG, Chat, Writing, and Reasoning. We collected instruction and preference data through a meticulously designed multi-stage data collection process, and conducted extensive experiments on 20+ mainstream reward models, including both classifiers and generative models. Our findings reveal that current models still lack long-form reward modeling capabilities. Furthermore, we designed a novel Long-form Needle-in-a-Haystack Test, which revealed a correlation between reward modeling performance and the error's position within a response, as well as the overall response length, with distinct characteristics observed between classification and generative models. Finally, we demonstrate that classifiers exhibit better generalizability compared to generative models trained on the same data. As the first benchmark for long-form reward modeling, this work aims to offer a robust platform for visualizing progress in this crucial area.
- Abstract(参考訳): 強化学習に基づくアライメントの普及は、報酬モデルの重要性の高まりを浮き彫りにしている。
さまざまなドメインやシナリオの報酬モデルを評価するために、さまざまなベンチマークが構築されている。
しかし、現実世界の応用において重要な役割を担っているにもかかわらず、長期的な世代に対する報酬モデルを評価する際に大きなギャップが残っている。
これを補うために,Long-form RewardBenchを紹介した。
ベンチマークには、QA、RAG、チャット、書き込み、推論の5つの重要なサブタスクが含まれています。
我々は,多段階データ収集プロセスを通じて指導データと嗜好データを収集し,分類器と生成モデルの両方を含む20以上の主流報酬モデルについて広範な実験を行った。
以上の結果から,現在のモデルにはまだ長文報酬モデリング機能が欠けていることが明らかとなった。
さらに,報酬モデリング性能と応答における誤差位置,および全体の応答長の相関を,分類モデルと生成モデルとの違いで明らかにした長文式ニードル・イン・ア・ヘイスタック試験を考案した。
最後に、同一データ上で訓練された生成モデルと比較して、分類器がより一般化可能であることを示す。
長期報酬モデリングの最初のベンチマークとして、この作業は、この重要な領域における進捗を視覚化するための堅牢なプラットフォームを提供することを目的としている。
関連論文リスト
- GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [8.785345412061792]
摂動に対する単一細胞転写応答をモデル化するための包括的枠組みを提案する。
私たちのアプローチには、モジュラーでユーザフレンドリなモデル開発と評価プラットフォームが含まれています。
モード崩壊など、広く使われているモデルの限界を強調します。
論文 参考訳(メタデータ) (2024-08-20T07:40:20Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。