論文の概要: DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training
- arxiv url: http://arxiv.org/abs/2509.05542v2
- Date: Tue, 21 Oct 2025 09:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.928535
- Title: DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training
- Title(参考訳): DreamPRM-1.5:マルチモーダルプロセスリワードモデルトレーニングにおける各インスタンスの可能性の解錠
- Authors: Qi Cao, Pengtao Xie,
- Abstract要約: DreamPRM-1.5は、インスタンスレベルの再重み付けフレームワークで、双方向の最適化を通じて、トレーニング例毎に適応的な重み付けを割り当てる。
MMMU検証セットで84.6の精度、R-Bench-Vで31.3の精度を実現し、リードバックボーンと組み合わせると、公開マルチモーダル推論リーダーボードで1位の結果が得られる。
- 参考スコア(独自算出の注目度): 28.02129783121819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training multimodal process reward models (PRMs) is hard due to (i) distribution shift between training set and test set and (ii) quality imbalance across training data samples. While domain-level reweighting (e.g., DreamPRM) aligns training with test-time objectives, it leaves a clear gap to an oracle upper bound (pass@N), even under a "sanity check" that uses test set data to probe headroom -- pointing to meta-level under-parameterization. We introduce DreamPRM-1.5, an instance-level reweighting framework that assigns an adaptive weight to every training example via bi-level optimization. To realize instance reweighting across scales, we develop two complementary regimes: Instance Table, which learns explicit per-sample weights and excels on small/medium data, and Instance Net, a lightweight neural network that generalizes better and scales to large corpora. A practical, stable training recipe -- time-scale matching between upper/lower updates, cold-start initialization, and bounded-range weights -- prevents divergence. Integrated with test-time scaling, DreamPRM-1.5 attains 84.6 accuracy on the MMMU validation set, 31.3 accuracy on R-Bench-V and, when paired with a leading backbone (e.g., GPT-5-mini), achieves first-place results on public multimodal reasoning leaderboards. Moreover, extensive experiments, including benchmark evaluations, baseline comparisons, and a sanity check, demonstrate that DreamPRM-1.5 closes the gap toward the oracle, achieves leading performance, and trains stably.
- Abstract(参考訳): マルチモーダルプロセス報酬モデル(PRM)の訓練は困難である
一 トレーニングセットとテストセットの分配シフト及び
(II)トレーニングデータサンプル間の品質不均衡。
ドメインレベルの再重み付け(例:DreamPRM)は、トレーニングとテストタイムの目標を一致させるが、テストデータセットを使用してヘッドルームを調査する"健全性チェック"の下でも、明確なギャップをオラクル上のバウンド(pass@N)に残す。
インスタンスレベルの再重み付けフレームワークであるDreamPRM-1.5を紹介します。
スケールにわたってインスタンスの再重み付けを実現するために,サンプル単位の重みを明示的に学習し,小/中規模データに優れるインスタンステーブルと,より汎用的で大規模なコーパスにスケールする軽量ニューラルネットワークであるインスタンスネットという,2つの補完的な仕組みを開発した。
実践的で安定したトレーニングレシピ – 上/下更新,コールドスタート初期化,バウンドレンジウェイト間のタイムスケールマッチング – は,ばらつきを防止している。
テストタイムのスケーリングと統合され、DreamPRM-1.5はMMMU検証セットで84.6の精度、R-Bench-Vで31.3の精度、そしてリードバックボーン(例えばGPT-5-mini)と組み合わせると、公開マルチモーダル推論のリーダーボードで1位の結果が得られる。
さらに、ベンチマーク評価、ベースライン比較、健全性チェックを含む広範な実験により、ドリームPRM-1.5がオラクルへのギャップを埋め、先進的なパフォーマンスを実現し、安定的に列車を走らせることを示した。
関連論文リスト
- Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - MiniCPM4: Ultra-Efficient LLMs on End Devices [126.22958722174583]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - An Approach to Build Zero-Shot Slot-Filling System for Industry-Grade Conversational Assistants [9.537527104259153]
1) レイテンシの低い要件を満たし、利便性とコスト効率のよいクラウドおよび顧客の前提デプロイメントを実現するために、小さなモデルを使用する。
我々は,事前学習したLCMをタスク固有データを用いてスロット充足モデルに微調整する,微調整アプローチを採用する。
その結果, スロット充填モデル構築に対する我々の所定のアプローチは, F1の基準値よりも6.9%向上し, 同時に遅延を57%低減できた。
論文 参考訳(メタデータ) (2024-06-13T06:24:52Z) - G-Meta: Distributed Meta Learning in GPU Clusters for Large-Scale
Recommender Systems [16.343248795178685]
本稿では,textbfGPUクラスタ上での最適化に基づくメタDLRMモデルの大規模トレーニングのためのフレームワークを提供する。
各種実験結果から,G-Metaは,統計的性能を損なうことなく,顕著なトレーニング速度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-09T03:35:43Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。