論文の概要: Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models
- arxiv url: http://arxiv.org/abs/2506.09532v1
- Date: Wed, 11 Jun 2025 09:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.787851
- Title: Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models
- Title(参考訳): Athena: データ効率のよいプロセスリワードモデルによるマルチモーダル推論の強化
- Authors: Shuai Wang, Zhenhua Liu, Jiaheng Wei, Xuanwu Yin, Dong Li, Emad Barsoum,
- Abstract要約: 本稿では,プロセス報酬モデル(PRM)であるAthena-PRMを提案する。
当社のAthena-PRMは、複数のベンチマークやシナリオで一貫して優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 13.934008059487574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Athena-PRM, a multimodal process reward model (PRM) designed to evaluate the reward score for each step in solving complex reasoning problems. Developing high-performance PRMs typically demands significant time and financial investment, primarily due to the necessity for step-level annotations of reasoning steps. Conventional automated labeling methods, such as Monte Carlo estimation, often produce noisy labels and incur substantial computational costs. To efficiently generate high-quality process-labeled data, we propose leveraging prediction consistency between weak and strong completers as a criterion for identifying reliable process labels. Remarkably, Athena-PRM demonstrates outstanding effectiveness across various scenarios and benchmarks with just 5,000 samples. Furthermore, we also develop two effective strategies to improve the performance of PRMs: ORM initialization and up-sampling for negative data. We validate our approach in three specific scenarios: verification for test time scaling, direct evaluation of reasoning step correctness, and reward ranked fine-tuning. Our Athena-PRM consistently achieves superior performance across multiple benchmarks and scenarios. Notably, when using Qwen2.5-VL-7B as the policy model, Athena-PRM enhances performance by 10.2 points on WeMath and 7.1 points on MathVista for test time scaling. Furthermore, Athena-PRM sets the state-of-the-art (SoTA) results in VisualProcessBench and outperforms the previous SoTA by 3.9 F1-score, showcasing its robust capability to accurately assess the correctness of the reasoning step. Additionally, utilizing Athena-PRM as the reward model, we develop Athena-7B with reward ranked fine-tuning and outperforms baseline with a significant margin on five benchmarks.
- Abstract(参考訳): Athena-PRMは、複雑な推論問題の解法における各ステップの報酬スコアを評価するために設計されたマルチモーダルプロセス報酬モデル(PRM)である。
高性能PRMの開発には、主に推論ステップの段階的なアノテーションを必要とするため、時間と財政的な投資が要求される。
モンテカルロ推定のような従来の自動ラベリング手法は、しばしばノイズの多いラベルを生成し、かなりの計算コストを発生させる。
高品質なプロセスラベル付きデータを効率的に生成するために,信頼性の高いプロセスラベルを識別するための基準として,弱いコンプリータと強いコンプリータ間の予測整合性を活用することを提案する。
注目すべきは、Athena-PRMは5000のサンプルで様々なシナリオとベンチマークで優れた効果を示していることだ。
さらに、ORMの初期化と陰性データのアップサンプリングという、2つの効果的なPRMの性能向上戦略も開発しています。
我々は,テスト時間スケーリングの検証,推論ステップの正しさの直接評価,微調整の報酬の3つのシナリオでアプローチを検証する。
当社のAthena-PRMは、複数のベンチマークやシナリオで一貫して優れたパフォーマンスを実現しています。
特に、Qwen2.5-VL-7Bをポリシーモデルとして使用する場合、Athena-PRMはWeMathで10.2ポイント、MathVistaで7.1ポイントの性能を向上させる。
さらに、Athena-PRMはVisualProcessBenchの最先端(SoTA)結果をセットし、以前のSoTAを3.9F1スコアで上回り、その堅牢性を示し、推論ステップの正確さを正確に評価する。
さらに,アテナPRMを報酬モデルとして用い,アテナ7Bの開発を行い,評価基準を5つのベンチマークで有意差で達成した。
関連論文リスト
- Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。
我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。
本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文 参考訳(メタデータ) (2025-03-26T06:38:31Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Better Process Supervision with Bi-directional Rewarding Signals [41.929678717412266]
本稿では,過去の手順の正しさを評価するプロセス監視モデルであるBiRMを紹介し,今後の成功の可能性をモデル化する。
数学的推論のタスクについて広範な実験を行い、BiRMがLLM推論のステップをより正確に評価できることを実証した。
検索ベースの戦略では、より包括的なガイダンスを提供し、それぞれMATH-500でORMを5.0%、PRMを3.8%上回る。
論文 参考訳(メタデータ) (2025-03-06T17:03:17Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。