論文の概要: Diving into Self-Evolving Training for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2412.17451v1
- Date: Mon, 23 Dec 2024 10:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:02:00.863197
- Title: Diving into Self-Evolving Training for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための自己進化学習への転換
- Authors: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He,
- Abstract要約: 自己進化型トレーニングは推論能力を高めるための効果的でスケーラブルなアプローチである。
トレーニング方法,リワードモデル,プロンプト変動の3つの要因を同定する。
本稿では,MSTaR(Multimodal Self-evolving Training for Reasoning)を提案する。
- 参考スコア(独自算出の注目度): 36.70979791148913
- License:
- Abstract: Reasoning ability is essential for Large Multimodal Models (LMMs). In the absence of multimodal chain-of-thought annotated data, self-evolving training, where the model learns from its own outputs, has emerged as an effective and scalable approach for enhancing reasoning abilities. Despite its growing usage, a comprehensive understanding of self-evolving training, particularly in the context of multimodal reasoning, remains limited. In this paper, we delve into the intricacies of self-evolving training for multimodal reasoning, pinpointing three key factors: Training Method, Reward Model, and Prompt Variation. We systematically examine each factor and explore how various configurations affect the training's effectiveness. Our analysis leads to a set of best practices for each factor, aimed at optimizing multimodal reasoning. Furthermore, we explore the Self-Evolution Dynamics during training and the impact of automatic balancing mechanisms in boosting performance. After all the investigations, we present a final recipe for self-evolving training in multimodal reasoning, encapsulating these design choices into a framework we call MSTaR (Multimodal Self-evolving Training for Reasoning), which is universally effective for models with different sizes on various benchmarks, e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning benchmarks without using additional human annotations, as demonstrated on MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this study fills a significant gap in the understanding of self-evolving training for multimodal reasoning and offers a robust framework for future research. Our policy and reward models, as well as the collected data, is released to facilitate further investigation in multimodal reasoning.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)には推論能力が不可欠である。
マルチモーダル・チェーン・オブ・アノテートデータがない中で、自己進化型トレーニングは、モデルが自身の出力から学習するものであり、推論能力を高めるための効果的でスケーラブルなアプローチとして現れてきた。
使用量の増加にもかかわらず、特にマルチモーダル推論の文脈において、自己進化学習の包括的理解は依然として限られている。
本稿では,マルチモーダル推論のための自己進化学習の難しさを掘り下げ,学習方法,回帰モデル,プロンプト変動の3つの重要な要因を抽出する。
それぞれの要因を体系的に検討し、様々な構成がトレーニングの有効性に与える影響について検討する。
分析の結果,多モーダル推論の最適化を目的とした各因子のベストプラクティスが得られた。
さらに、トレーニング中の自己進化ダイナミクスと、パフォーマンス向上における自動バランス機構の影響についても検討する。
その結果,MSTaR(Multimodal Self-evolving Training for Reasoning)と呼ばれるフレームワークを組み込んだマルチモーダル推論における自己進化トレーニングの最終的なレシピを提示した。これは,MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B), InternVL2 (2B) で示されるように,様々なベンチマークで異なるサイズを持つモデルに対して,事前進化モデルを大幅に上回っている。
本研究は,マルチモーダル推論のための自己進化学習の理解において,大きなギャップを埋め,今後の研究に堅牢な枠組みを提供すると考えている。
当社のポリシーと報酬モデルと収集したデータは、マルチモーダル推論のさらなる研究を促進するためにリリースされている。
関連論文リスト
- HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Unlock the Power: Competitive Distillation for Multi-Modal Large
Language Models [17.25135606956287]
競合型マルチモーダル蒸留フレームワーク(CoMD)は,教師モデルと学生モデル間の双方向フィードバックをキャプチャする。
多様なデータセットを実験的に分析した結果,我々の知識伝達手法は学生モデルの性能を継続的に改善することがわかった。
論文 参考訳(メタデータ) (2023-11-14T14:49:46Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。