論文の概要: Training Data Efficiency in Multimodal Process Reward Models
- arxiv url: http://arxiv.org/abs/2602.04145v2
- Date: Thu, 05 Feb 2026 03:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.881473
- Title: Training Data Efficiency in Multimodal Process Reward Models
- Title(参考訳): マルチモーダルプロセスリワードモデルにおけるトレーニングデータの効率性
- Authors: Jinyuan Li, Chengsong Huang, Langlin Huang, Shaoyang Xu, Haolin Liu, Wenxuan Zhang, Jiaxin Huang,
- Abstract要約: MPRMの訓練には大規模なモンテカルロ(MC)注釈コーパスが必要である。
本稿ではMPRMトレーニングにおけるデータ効率について検討する。
本稿では、既存のMC信号に基づいて、混合と信頼性の両方を優先するバランス情報スコア(BIS)を提案する。
- 参考スコア(独自算出の注目度): 33.13249650453014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Process Reward Models (MPRMs) are central to step-level supervision for visual reasoning in MLLMs. Training MPRMs typically requires large-scale Monte Carlo (MC)-annotated corpora, incurring substantial training cost. This paper studies the data efficiency for MPRM training. Our preliminary experiments reveal that MPRM training quickly saturates under random subsampling of the training data, indicating substantial redundancy within existing MC-annotated corpora. To explain this, we formalize a theoretical framework and reveal that informative gradient updates depend on two factors: label mixtures of positive/negative steps and label reliability (average MC scores of positive steps). Guided by these insights, we propose the Balanced-Information Score (BIS), which prioritizes both mixture and reliability based on existing MC signals at the rollout level, without incurring any additional cost. Across two backbones (InternVL2.5-8B and Qwen2.5-VL-7B) on VisualProcessBench, BIS-selected subsets consistently match and even surpass the full-data performance at small fractions. Notably, the BIS subset reaches full-data performance using only 10% of the training data, improving over random subsampling by a relative 4.1%.
- Abstract(参考訳): マルチモーダルプロセスリワードモデル(MPRM)は、MLLMにおける視覚的推論のためのステップレベルの監視の中心である。
訓練用MPRMは通常、大規模なモンテカルロ(MC)注釈のコーパスを必要とし、かなりの訓練コストがかかる。
本稿ではMPRMトレーニングにおけるデータ効率について検討する。
予備実験の結果,MPRMトレーニングはトレーニングデータのランダムなサブサンプリングの下で急速に飽和し,既存のMC注釈コーパスにかなりの冗長性を示した。
これを説明するために、理論的な枠組みを定式化し、情報的勾配の更新は正負のステップのラベル混合とラベル信頼性(平均MCスコアの正のステップ)の2つの要因に依存することを示した。
これらの知見に導かれて,既存のMC信号のロールアウトレベルでの混合と信頼性の両方を優先し,追加コストを伴わないバランス情報スコア(BIS)を提案する。
VisualProcessBench上の2つのバックボーン(InternVL2.5-8BとQwen2.5-VL-7B)で、BISが選択したサブセットは一貫して一致し、小さな割合でフルデータパフォーマンスを上回ります。
特に、BISサブセットはトレーニングデータの10%しか使用せず、相対4.1%のランダムサブサンプリングよりも改善されている。
関連論文リスト
- DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training [28.02129783121819]
DreamPRM-1.5は、インスタンスレベルの再重み付けフレームワークで、双方向の最適化を通じて、トレーニング例毎に適応的な重み付けを割り当てる。
MMMU検証セットで84.6の精度、R-Bench-Vで31.3の精度を実現し、リードバックボーンと組み合わせると、公開マルチモーダル推論リーダーボードで1位の結果が得られる。
論文 参考訳(メタデータ) (2025-09-05T23:42:01Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - MLMC-based Resource Adequacy Assessment with Active Learning Trained Surrogate Models [6.430258446597413]
マルチレベルモンテカルロ(MLMC)は、信頼性評価を加速するための柔軟で効果的な分散技術である。
データ駆動サロゲートモデルは、複雑な電力システムフレームワークにおいて低レベルモデルとして提案されている。
論文 参考訳(メタデータ) (2025-05-27T09:21:02Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - Balancing Multimodal Training Through Game-Theoretic Regularization [26.900302082724295]
マルチモーダル学習は、データソース間の依存関係をキャプチャすることで、よりリッチな情報抽出を約束する。
しかし、現在のトレーニング手法は、しばしばモダリティの競争によって性能が低下する。
本稿では、相互情報分解(MI)に触発されたMCR(Multimodal Competition Regularizer)を提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。