論文の概要: Diving into Self-Evolving Training for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2412.17451v3
- Date: Fri, 06 Jun 2025 10:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.765091
- Title: Diving into Self-Evolving Training for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための自己進化学習への転換
- Authors: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He,
- Abstract要約: 自己進化的トレインは複雑な推論タスクの鍵となるアプローチとして登場した。
本稿では,強化学習のレンズによるマルチモーダル推論のための自己進化学習を再構成する。
M-STARは、様々なサイズと多様なベンチマークのモデル間で一貫したパフォーマンス向上を実現するフレームワークである。
- 参考スコア(独自算出の注目度): 36.70979791148913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-evolving trainin--where models iteratively learn from their own outputs--has emerged as a key approach for complex reasoning tasks, addressing the scarcity of high-quality chain-of-thought data. However, its effectiveness in multimodal reasoning, a domain more intricate than text-only reasoning, remains underexplored, and the understanding of critical factors in this training paradigm remains limited. Furthermore, a central challenge for this training method is performance saturation, which impedes further improvements and scalability. Inspired by reinforcement learning (RL), in this paper, we reframe self-evolving training for multimodal reasoning through the lens of RL, identifying three pivotal factors: Training Method, Reward Model, and Prompt Variation. Through systematic analysis, we establish relatively optimal design principles that significantly enhance multimodal reasoning capabilities. Moreover, delving deeper into training dynamics, we uncover the roots of saturation and propose a new automatic balancing mechanism to mitigate this limitation. Building on these insights, we propose M-STAR (Multimodal Self-evolving Training for Reasoning), a framework that achieves consistent performance gains across models of varying sizes and diverse benchmarks. All resources are made publicly available at https://mstar-lmm.github.io.
- Abstract(参考訳): 自己進化的トレインモデル – モデルは自身のアウトプットから反復的に学習する — 複雑な推論タスクにおいて重要なアプローチとして現れ、高品質なチェーンオブ思考データの不足に対処した。
しかし、テキストのみの推論よりも複雑な領域であるマルチモーダル推論の有効性は未解明のままであり、この訓練パラダイムにおける重要な要素の理解は依然として限られている。
さらに、このトレーニング手法の課題はパフォーマンス飽和であり、さらなる改善とスケーラビリティを妨げる。
本稿では、強化学習(RL)にヒントを得て、RLのレンズを通して多モーダル推論のための自己進化学習を再構成し、トレーニング方法、リワードモデル、プロンプト変動の3つの重要な要因を特定した。
体系的な分析を通じて,多モーダル推論能力を大幅に向上させる,比較的最適な設計原理を確立する。
さらに、トレーニング力学を深く研究し、飽和の根源を明らかにするとともに、この制限を緩和する新しい自動バランス機構を提案する。
M-STAR(Multimodal Self-evolving Training for Reasoning)は,様々なサイズと多様なベンチマークのモデル間で一貫したパフォーマンス向上を実現するフレームワークである。
すべてのリソースはhttps://mstar-lmm.github.ioで公開されている。
関連論文リスト
- VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - DeepSuM: Deep Sufficient Modality Learning Framework [6.455939667961427]
本稿では,各モダリティの表現を独立に学習するモダリティ選択のための新しいフレームワークを提案する。
本フレームワークは,モダリティ統合と選択を最適化することにより,マルチモーダル学習の効率性と有効性を高めることを目的としている。
論文 参考訳(メタデータ) (2025-03-03T16:48:59Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。