Fugu-MT 論文翻訳(概要): MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

論文の概要: MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

arxiv url: http://arxiv.org/abs/2409.05840v2
Date: Sun, 15 Sep 2024 13:32:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 22:28:35.696023
Title: MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
Title（参考訳）: MMEvol: Evol-Instructによるマルチモーダル大言語モデルの強化
Authors: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li,
Abstract要約: 我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
参考スコア（独自算出の注目度）: 148.39859547619156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The development of Multimodal Large Language Models (MLLMs) has seen significant advancements with increasing demands in various fields (e.g., multimodal agents, embodied intelligence). While model-driven approaches attempt to enhance MLLMs capabilities through diverse architectures, the gains have become increasingly marginal. Conversely, data-driven methods, which scale up image-text instruction data, are more effective but face limited data diversity and complexity challenges. The absence of high-quality data constitutes a significant development barrier for MLLMs. To address the data quality bottleneck, we propose MMEvol, a novel multimodal instruction data evolution framework. This framework iteratively improve data quality through a refined combination of fine-grained perception, cognitive reasoning, and interaction evolution, generating a more complex and diverse image-text instruction dataset that empowers MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broaden the diversity of instruction types, extend visual reasoning steps to improve cognitive reasoning abilities, and thoroughly explore fine-grained information within images to enhance visual understanding and robustness. To comprehensively evaluate the effectiveness of our approach, we conduct extensive qualitative analysis and quantitative experiments across 13 vision-language tasks. Compared to baseline models trained with the initial seed data, the results demonstrate that our method achieves an average accuracy improvement of 3.1 percentage points. Furthermore, our approach reaches state-of-the-art (SOTA) performance in nine tasks using significantly less data compared to state-of-the-art models.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の開発は、様々な分野(例えば、マルチモーダルエージェント、インボディードインテリジェンス)の需要の増加とともに、大きな進歩を遂げている。モデル駆動アプローチは多様なアーキテクチャを通じてMLLMの能力を向上しようとするが、その利益はますます限界に達している。逆に、画像テキストの命令データをスケールアップするデータ駆動手法は、より効果的であるが、データ多様性と複雑さの制限に直面している。高品質なデータがないことは、MLLMにとって重要な開発障壁となっている。データ品質のボトルネックに対処するため,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。このフレームワークは、微粒な知覚、認知的推論、相互作用の進化を巧みに組み合わせることで、データ品質を反復的に改善し、より複雑で多様な画像テキスト命令データセットを生成し、機能強化によるMLLMの強化を可能にします。初期の命令セットSEED-163Kから、MMEvolを用いて、命令型の多様性を体系的に拡張し、認知的推論能力を向上させるために視覚的推論手順を拡張し、画像内のきめ細かい情報を徹底的に探索し、視覚的理解と堅牢性を高める。提案手法の有効性を総合的に評価するため,13の視覚言語タスクに対して,広範囲な質的分析と定量的実験を行った。初期シードデータを用いたベースラインモデルと比較して,本手法は平均精度を3.1ポイント向上することを示した。さらに,本手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。

関連論文リスト

Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality [59.651410243721045]
CoCoAは、マルチモーダル埋め込み最適化のための協調注意に基づくコンテンツ再構成事前学習パラダイムである。 EOSをベースとした再構築タスクを導入し、対応するEOS>埋め込みからの入力を再構成するようモデルに促す。 MMEB-V1の実験では、Qwen2-VLとQwen2.5-VLをベースにしたCoCoAが埋め込み品質を著しく向上することを示した。
論文参考訳（メタデータ） (2026-03-02T05:34:45Z)
Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文参考訳（メタデータ） (2025-11-26T10:55:07Z)
Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文参考訳（メタデータ） (2025-11-03T14:27:00Z)
Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models [2.984679075401059]
本稿では,視覚言語モデルの解釈性向上を目的としたマルチモーダル説明型学習フレームワークを提案する。我々のアプローチは、複数の意味レベルで特徴を処理し、異なる粒度における画像領域間の関係をキャプチャする。意味関係情報を勾配に基づく属性マップに組み込むことで、MMELはより焦点を絞った、文脈を意識した視覚化を実現できることを示す。
論文参考訳（メタデータ） (2025-09-17T18:18:59Z)
Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis [44.66179436245703]
Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。 3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
論文参考訳（メタデータ） (2025-08-07T17:12:54Z)
Multimodal Large Language Models for End-to-End Affective Computing: Benchmarking and Boosting with Generative Knowledge Prompting [11.297069638670749]
マルチモーダル・アフェクティブ・コンピューティング(Multimodal Affective Computing)は、テキスト、ビデオ、オーディオなどの様々なモダリティからの情報を統合することで、人間の感情を認識し、解釈することを目的としている。 MLLM(Multimodal Large Language Models)の最近の進歩はMACの景観を大きく変えている。我々は、音声、視覚、テキストのモーダルを同時に処理できる最先端のオープンソースMLLMのベンチマーク評価を行う。本稿では,MLLMの感情計算能力を高めるために,ジェネレーティブな知識と教師付き微調整を組み合わせた新しいハイブリッド戦略を提案する。
論文参考訳（メタデータ） (2025-08-04T13:49:03Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning [20.79390984800288]
大規模言語モデル(LLM)は、様々なタスクにまたがってますます適用されてきている。本稿では,多種多様な命令チューニングのためのモデルフリーデータ手法MDITを提案する。複数のベンチマークタスクにおいて,本手法が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2025-04-09T21:28:17Z)
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文参考訳（メタデータ） (2024-10-24T09:03:48Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文参考訳（メタデータ） (2024-06-27T15:36:43Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。