論文の概要: StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models
- arxiv url: http://arxiv.org/abs/2508.05383v1
- Date: Thu, 07 Aug 2025 13:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.876748
- Title: StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models
- Title(参考訳): StructVRM:構造化および検証可能なリワードモデルによるマルチモーダル推論のアライメント
- Authors: Xiangxiang Zhang, Jingxuan Wei, Donghong Zhong, Qi Chen, Caijun Jia, Cheng Tan, Jinming Gu, Xiaobo Qin, Zhiping Liu, Liang Hu, Tong Sun, Yuchen Wu, Zewei Sun, Chenwei Lou, Hua Zheng, Tianyang Zhan, Changbao Wang, Shuangzhi Wu, Zefa Lin, Chang Guo, Sihang Yuan, Riwei Chen, Shixiong Zhao, Yingping Zhang, Gaowei Wu, Bihui Yu, Jiahui Wu, Zhehui Zhao, Qianqian Liu, Ruofeng Tang, Xingyue Huang, Bing Zhao, Mengyang Zhang, Youqiang Zhou,
- Abstract要約: StructVRMは、マルチモーダル推論をStructudおよびVerifiable Reward Modelsと整合させる手法である。
その中核は、きめ細かいサブクエストレベルのフィードバックを提供するために訓練されたモデルベースの検証器である。
トレーニングされたモデルSeed-StructVRMは、12の公開マルチモーダルベンチマークのうち6つの最先端のパフォーマンスと、新たにキュレートされた高微分型STEM-Benchを実現しています。
- 参考スコア(独自算出の注目度): 25.345348726907854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Vision-Language Models often struggle with complex, multi-question reasoning tasks where partial correctness is crucial for effective learning. Traditional reward mechanisms, which provide a single binary score for an entire response, are too coarse to guide models through intricate problems with multiple sub-parts. To address this, we introduce StructVRM, a method that aligns multimodal reasoning with Structured and Verifiable Reward Models. At its core is a model-based verifier trained to provide fine-grained, sub-question-level feedback, assessing semantic and mathematical equivalence rather than relying on rigid string matching. This allows for nuanced, partial credit scoring in previously intractable problem formats. Extensive experiments demonstrate the effectiveness of StructVRM. Our trained model, Seed-StructVRM, achieves state-of-the-art performance on six out of twelve public multimodal benchmarks and our newly curated, high-difficulty STEM-Bench. The success of StructVRM validates that training with structured, verifiable rewards is a highly effective approach for advancing the capabilities of multimodal models in complex, real-world reasoning domains.
- Abstract(参考訳): 既存のビジョンランゲージモデルはしばしば、効果的な学習に部分的正しさが不可欠である複雑なマルチクエスト推論タスクに苦しむ。
応答全体に対して単一のバイナリスコアを提供する従来の報酬メカニズムは、複数のサブパートの複雑な問題を通じてモデルをガイドするには大きすぎる。
そこで本研究では,マルチモーダル推論をStructVRM(StructVRM)とStructおよびVerifiable Reward Models(StructVRM)に整合させる手法を提案する。
その中核は、厳密な文字列マッチングに頼るのではなく、意味と数学的等価性を評価し、きめ細かなサブクエクションレベルのフィードバックを提供するよう訓練されたモデルベースの検証器である。
これにより、前もって難解な問題フォーマットで、ニュアンス付き部分クレジットスコアリングが可能になる。
広範囲にわたる実験により、StructVRMの有効性が示された。
トレーニングされたモデルSeed-StructVRMは、12の公開マルチモーダルベンチマークのうち6つの最先端のパフォーマンスと、新たにキュレートされた高微分型STEM-Benchを実現しています。
StructVRMの成功は、構造化された検証可能な報酬を用いたトレーニングが、複雑な実世界の推論領域におけるマルチモーダルモデルの能力を向上するための非常に効果的なアプローチであることを証明している。
関連論文リスト
- GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning [12.724393910603299]
GM-PRM(Generative Multimodal Process Reward Model)を紹介する。
単純なスカラースコアの代わりに、GM-PRMは各推論ステップのきめ細かい解釈可能な分析を提供する。
GM-PRMは複数のマルチモーダル数学ベンチマークにおいて最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2025-08-06T05:10:29Z) - VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning [26.167394979565454]
画像理解タスクにおいて,マルチモーダルな大規模モデルによるきめ細かい推論を可能にする新しいフレームワークSAM-R1を提案する。
提案手法は,マルチモーダル推論モデルのトレーニングにおいて,よりきめ細かいセグメンテーション設定を取り入れた最初の手法である。
3kのトレーニングサンプルだけで、SAM-R1は複数のベンチマークで高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-28T17:08:28Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - The Effectiveness of a Simplified Model Structure for Crowd Counting [11.640020969258101]
本稿では,単純な構造のみを用いて,高性能なクラウドカウントモデルを構築する方法について論じる。
本稿では,バックボーンネットワークとマルチスケール機能融合構造のみからなる,そのシンプルで効率的な構造を特徴とするFuss-Free Network(FFNet)を提案する。
提案するクラウドカウントモデルは,広く使用されている4つの公開データセットに対してトレーニングおよび評価を行い,既存の複雑なモデルに匹敵する精度を実現する。
論文 参考訳(メタデータ) (2024-04-11T15:42:53Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。