論文の概要: EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards
- arxiv url: http://arxiv.org/abs/2511.16672v1
- Date: Thu, 20 Nov 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.817002
- Title: EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards
- Title(参考訳): EvoLMM: 継続的リワードを伴う自己進化型大規模マルチモーダルモデル
- Authors: Omkat Thawakar, Shravan Venkatraman, Ritesh Thawkar, Abdelrahman Shaker, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Fahad Khan,
- Abstract要約: 本稿では,1つのバックボーンモデルから2つの協調エージェントをインスタンス化する自己進化型フレームワークEvoLMMを提案する。
この動的なフィードバックは、情報的クエリの生成と構造化推論の洗練の両方を促進する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/EvoLMMで公開されています。
- 参考スコア(独自算出の注目度): 48.767333164196764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large multimodal models (LMMs) have enabled impressive reasoning and perception abilities, yet most existing training pipelines still depend on human-curated data or externally verified reward models, limiting their autonomy and scalability. In this work, we strive to improve LMM reasoning capabilities in a purely unsupervised fashion (without any annotated data or reward distillation). To this end, we propose a self-evolving framework, named EvoLMM, that instantiates two cooperative agents from a single backbone model: a Proposer, which generates diverse, image-grounded questions, and a Solver, which solves them through internal consistency, where learning proceeds through a continuous self-rewarding process. This dynamic feedback encourages both the generation of informative queries and the refinement of structured reasoning without relying on ground-truth or human judgments. When using the popular Qwen2.5-VL as the base model, our EvoLMM yields consistent gains upto $\sim$3\% on multimodal math-reasoning benchmarks, including ChartQA, MathVista, and MathVision, using only raw training images. We hope our simple yet effective approach will serve as a solid baseline easing future research in self-improving LMMs in a fully-unsupervised fashion. Our code and models are available at https://github.com/mbzuai-oryx/EvoLMM.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、印象的な推論と知覚能力を実現しているが、既存のトレーニングパイプラインの多くは、人間の計算データや、外部で検証された報酬モデルに依存しており、自律性とスケーラビリティを制限している。
本研究では,LMM推論能力を(注釈付きデータや報奨蒸留を使わずに)純粋に教師なしの方法で改善しようと試みる。
そこで本研究では,単一のバックボーンモデルから2つの協調エージェントをインスタンス化する,EvoLMMという自己進化型フレームワークを提案する。
この動的フィードバックは、情報的クエリの生成と構造的推論の洗練の両方を、地上の真実や人間の判断に頼らずに促進する。
一般的なQwen2.5-VLをベースモデルとして使用する場合、我々のEvoLMMは、生のトレーニング画像のみを使用して、ChartQA、MathVista、MathVisionを含むマルチモーダルな数学推論ベンチマークにおいて、最大$\sim$3\%の一貫性のあるゲインを得る。
我々の単純で効果的なアプローチは、完全に教師なしの方法で自己改善型LMMの研究を緩和する確固たるベースラインとして役立つことを願っている。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/EvoLMMで公開されています。
関連論文リスト
- Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。
近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。
数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文 参考訳(メタデータ) (2025-10-27T17:58:02Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。
提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文 参考訳(メタデータ) (2025-03-12T06:01:05Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。