論文の概要: C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning
- arxiv url: http://arxiv.org/abs/2507.16518v2
- Date: Tue, 29 Jul 2025 07:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.810381
- Title: C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning
- Title(参考訳): C2-Evo:マルチモーダルデータと自己改善推論モデル
- Authors: Xiuwei Chen, Wentao Hu, Hanhui Li, Jun Zhou, Zisheng Chen, Meng Cao, Yihan Zeng, Kui Zhang, Yu-Jie Yuan, Jianhua Han, Hang Xu, Xiaodan Liang,
- Abstract要約: C2-Evoは、トレーニングデータとモデル機能の両方を共同で進化させる、自動クローズドループ自己改善フレームワークである。
C2-Evoは、複数の数学的推論ベンチマークにおいて、一定の性能向上が得られることを示す。
- 参考スコア(独自算出の注目度): 78.36259648527401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have shown impressive reasoning capabilities. However, further enhancing existing MLLMs necessitates high-quality vision-language datasets with carefully curated task complexities, which are both costly and challenging to scale. Although recent self-improving models that iteratively refine themselves offer a feasible solution, they still suffer from two core challenges: (i) most existing methods augment visual or textual data separately, resulting in discrepancies in data complexity (e.g., over-simplified diagrams paired with redundant textual descriptions); and (ii) the evolution of data and models is also separated, leading to scenarios where models are exposed to tasks with mismatched difficulty levels. To address these issues, we propose C2-Evo, an automatic, closed-loop self-improving framework that jointly evolves both training data and model capabilities. Specifically, given a base dataset and a base model, C2-Evo enhances them by a cross-modal data evolution loop and a data-model evolution loop. The former loop expands the base dataset by generating complex multimodal problems that combine structured textual sub-problems with iteratively specified geometric diagrams, while the latter loop adaptively selects the generated problems based on the performance of the base model, to conduct supervised fine-tuning and reinforcement learning alternately. Consequently, our method continuously refines its model and training data, and consistently obtains considerable performance gains across multiple mathematical reasoning benchmarks. Our code, models, and datasets will be released.
- Abstract(参考訳): MLLM(Multimodal large language model)の最近の進歩は印象的な推論能力を示している。
しかし、既存のMLLMをさらに強化するには、コストとスケールの難しさの両方を考慮に入れた、高品質の視覚言語データセットが必要である。
反復的に洗練する最近の自己改善モデルは実現可能なソリューションを提供するが、それでも2つの課題に悩まされている。
(i)既存のほとんどの手法は、視覚的またはテキスト的データを別々に拡張し、データの複雑さ(例えば、冗長なテキスト的記述と組み合わせた過度に単純化された図形)の相違をもたらす。
(ii)データとモデルの進化も分離され、モデルがミスマッチした難易度を持つタスクに露出するシナリオが生まれる。
これらの問題に対処するために、トレーニングデータとモデル機能の両方を共同で進化させる自動クローズドループ自己改善フレームワークであるC2-Evoを提案する。
具体的には、ベースデータセットとベースモデルが与えられた場合、C2-Evoはそれらを、クロスモーダルなデータ進化ループとデータモデル進化ループによって強化する。
前ループは、構造化されたテキストサブプロブレムと反復的に指定された幾何図形を組み合わせた複雑なマルチモーダル問題を生成し、後者ループはベースモデルの性能に基づいて生成された問題を適応的に選択し、教師付き微調整と強化学習を交互に行う。
その結果,本手法は連続的にモデルとトレーニングデータを洗練し,複数の数学的推論ベンチマークにおいて高い性能を得ることができた。
私たちのコード、モデル、データセットがリリースされます。
関連論文リスト
- HuggingGraph: Understanding the Supply Chain of LLM Ecosystem [9.61483474473764]
大規模言語モデル(LLM)は、文脈から単語のシーケンスを処理および予測するためにディープラーニングを活用する。
その結果、モデルとデータセットをホストするプラットフォームが広く使用されている。
本研究の目的は,LLMサプライチェーンのコアコンポーネントであるモデルとデータセットの関係を検討することである。
論文 参考訳(メタデータ) (2025-07-17T17:34:13Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Dynamic Hybrid Modeling: Incremental Identification and Model Predictive Control [0.6775616141339018]
動的ハイブリッドモデルの同定は、メカニスティックモデル構造にデータ駆動モデルを統合する必要があるため、依然として困難である。
本稿では,力学およびデータ駆動コンポーネントを分離した動的ハイブリッドモデルに対する漸進的同定手法を提案する。
このアプローチは、モデル構造適合性の早期評価を促進し、ハイブリッドモデルの開発を加速し、データ駆動コンポーネントの独立した識別を可能にする。
論文 参考訳(メタデータ) (2025-06-23T06:55:32Z) - Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models [24.73190742678142]
マルチモーダル視覚言語生成システムにおける生成モデル崩壊のリスクについて検討する。
モデル崩壊は、視覚言語アライメントの改善や、画像キャプションタスクのばらつきの増大など、マルチモーダルな文脈において異なる特徴を示す。
本研究は,自己改善型マルチエージェントAIシステムにおいて,モデル崩壊のリスクを低減するための初期知見と実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2025-05-10T22:42:29Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。
生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文 参考訳(メタデータ) (2024-08-05T16:21:17Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQA(SK-VQA)は,200万以上の視覚的質問応答対を含む大規模合成マルチモーダルデータセットである。
人間の評価を通じて,生成した質問応答対の質と文脈的関連性を確認する。
以上の結果から,SK-VQAでトレーニングしたモデルは,コンテキスト対応VQAとマルチモーダルRAG設定の両方において拡張された一般化を示した。
論文 参考訳(メタデータ) (2024-06-28T01:14:43Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。