論文の概要: DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training
- arxiv url: http://arxiv.org/abs/2509.05542v1
- Date: Fri, 05 Sep 2025 23:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.568529
- Title: DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training
- Title(参考訳): DreamPRM-1.5:マルチモーダルプロセスリワードモデルトレーニングにおける各インスタンスの可能性の解錠
- Authors: Qi Cao, Pengtao Xie,
- Abstract要約: 両レベルの最適化により,各トレーニング例の重要性を適応的に調整する,インスタンス重み付けフレームワークであるDreamPRM-1.5を紹介する。
より小さなデータセットに有効なインスタンステーブルと、より大きなデータセットにスケーラブルなインスタンスネットの2つの補完的な戦略を設計します。
テストタイムのスケーリングに統合されたDreamPRM-1.5は、MMMUベンチマークで84.6の精度を達成し、GPT-5を上回った。
- 参考スコア(独自算出の注目度): 28.02129783121819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training multimodal process reward models (PRMs) is challenged by distribution shifts and noisy data. We introduce DreamPRM-1.5, an instance-reweighted framework that adaptively adjusts the importance of each training example via bi-level optimization. We design two complementary strategies: Instance Table, effective for smaller datasets, and Instance Net, scalable to larger ones. Integrated into test-time scaling, DreamPRM-1.5 achieves 84.6 accuracy on the MMMU benchmark, surpassing GPT-5.
- Abstract(参考訳): マルチモーダルプロセス報酬モデル(PRM)の訓練は,分散シフトやノイズの多いデータによって行われる。
両レベルの最適化により,各トレーニング例の重要性を適応的に調整する,インスタンス重み付けフレームワークであるDreamPRM-1.5を紹介する。
より小さなデータセットに有効なインスタンステーブルと、より大きなデータセットにスケーラブルなインスタンスネットの2つの補完的な戦略を設計します。
テストタイムのスケーリングに統合されたDreamPRM-1.5は、MMMUベンチマークで84.6の精度を達成し、GPT-5を上回った。
関連論文リスト
- Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - MiniCPM4: Ultra-Efficient LLMs on End Devices [126.22958722174583]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - An Approach to Build Zero-Shot Slot-Filling System for Industry-Grade Conversational Assistants [9.537527104259153]
1) レイテンシの低い要件を満たし、利便性とコスト効率のよいクラウドおよび顧客の前提デプロイメントを実現するために、小さなモデルを使用する。
我々は,事前学習したLCMをタスク固有データを用いてスロット充足モデルに微調整する,微調整アプローチを採用する。
その結果, スロット充填モデル構築に対する我々の所定のアプローチは, F1の基準値よりも6.9%向上し, 同時に遅延を57%低減できた。
論文 参考訳(メタデータ) (2024-06-13T06:24:52Z) - G-Meta: Distributed Meta Learning in GPU Clusters for Large-Scale
Recommender Systems [16.343248795178685]
本稿では,textbfGPUクラスタ上での最適化に基づくメタDLRMモデルの大規模トレーニングのためのフレームワークを提供する。
各種実験結果から,G-Metaは,統計的性能を損なうことなく,顕著なトレーニング速度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-09T03:35:43Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。