論文の概要: MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
- arxiv url: http://arxiv.org/abs/2603.09206v1
- Date: Tue, 10 Mar 2026 05:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.054667
- Title: MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
- Title(参考訳): MM-Zero:ゼロデータから自己進化する多モデル視覚言語モデル
- Authors: Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu,
- Abstract要約: 視覚言語モデルのためのゼロデータ自己進化を実現する最初のRLベースのフレームワークであるMulti-model Multimodal Zero (MM-Zero)を提案する。
MM-Zeroは3つの専門的な役割からなるマルチロールの自己進化型トレーニングフレームワークを導入している。
実験の結果,MM-Zero は様々なマルチモーダルベンチマークにおいて VLM 推論性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 30.295273919299046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.
- Abstract(参考訳): 自己進化は、人間の介入を最小限に抑えて、LLM(Large Language Models)やVLM(Vision Language Models)のような基礎モデルを改善するための重要なパラダイムとして登場した。
近年のアプローチでは、LLMエージェントがゼロからほとんどデータなしで自己進化できることが実証されているが、VLMは、通常、自己進化プロセスをブートストラップするために、画像などの少なくともいくつかのシードデータを必要とする、視覚的モダリティを導入している。
本稿では、VLM推論のためのゼロデータ自己進化を実現する最初のRLベースのフレームワークであるMulti-model Multimodal Zero(MM-Zero)を提案する。
従来のデュアルロール(ProposerとSolver)のセットアップを超えて、MM-Zeroでは、抽象的な視覚概念を生成し、質問を定式化するProposer、これらの概念を実行可能なコード(例えば、Python、SVG)に変換するCoder、生成した視覚コンテンツをマルチモーダル推論するSolverという3つの特別な役割を含む、マルチロールの自己進化トレーニングフレームワークを導入している。
3つの役割はいずれも同じベースモデルから初期化され、グループ相対ポリシー最適化(GRPO)を使用してトレーニングされる。
実験の結果,MM-Zero は様々なマルチモーダルベンチマークにおいて VLM 推論性能を向上させることがわかった。
MM-Zeroは、マルチモーダルモデルのための自己進化型マルチモデルシステムへのスケーラブルなパスを確立し、従来の2モデルパラダイムを超えて自己改善のフロンティアを広げる。
関連論文リスト
- Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space [52.34072027212278]
埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。
大規模基盤モデルの最近の進歩は、埋め込みモデルの開発を著しく加速させてきた。
マルチモーダルdLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-19T06:51:15Z) - EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards [52.42920996842378]
本稿では,1つのバックボーンモデルから2つの協調エージェントをインスタンス化する自己進化型フレームワークEvoLMMを提案する。
この動的なフィードバックは、情報的クエリの生成と構造化推論の洗練の両方を促進する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/EvoLMMで公開されています。
論文 参考訳(メタデータ) (2025-11-20T18:59:54Z) - VisPlay: Self-Evolving Vision-Language Models from Images [16.43670977857598]
強化学習(RL)は、複雑なタスクにおける視覚言語モデル(VLM)を改善するための原則的なフレームワークを提供する。
我々は、VLMが大量のラベルのない画像データを用いて推論能力を自律的に改善できる自己進化型RLフレームワークであるVisPlayを紹介した。
論文 参考訳(メタデータ) (2025-11-19T17:55:15Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。
VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。
本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文 参考訳(メタデータ) (2025-03-12T15:48:13Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。