論文の概要: Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis
- arxiv url: http://arxiv.org/abs/2508.05580v1
- Date: Thu, 07 Aug 2025 17:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.965602
- Title: Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis
- Title(参考訳): Follow-Your-Instruction: ワールドデータ合成のための総合的MLLMエージェント
- Authors: Kunyu Feng, Yue Ma, Xinhua Zhang, Boshi Liu, Yikuang Yuluo, Yinhan Zhang, Runtao Liu, Hongyu Liu, Zhiyuan Qin, Shanhui Mo, Qifeng Chen, Zeyu Wang,
- Abstract要約: Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。
3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。
本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
- 参考スコア(独自算出の注目度): 44.66179436245703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing demands of AI-generated content (AIGC), the need for high-quality, diverse, and scalable data has become increasingly crucial. However, collecting large-scale real-world data remains costly and time-consuming, hindering the development of downstream applications. While some works attempt to collect task-specific data via a rendering process, most approaches still rely on manual scene construction, limiting their scalability and accuracy. To address these challenges, we propose Follow-Your-Instruction, a Multimodal Large Language Model (MLLM)-driven framework for automatically synthesizing high-quality 2D, 3D, and 4D data. Our \textbf{Follow-Your-Instruction} first collects assets and their associated descriptions through multimodal inputs using the MLLM-Collector. Then it constructs 3D layouts, and leverages Vision-Language Models (VLMs) for semantic refinement through multi-view scenes with the MLLM-Generator and MLLM-Optimizer, respectively. Finally, it uses MLLM-Planner to generate temporally coherent future frames. We evaluate the quality of the generated data through comprehensive experiments on the 2D, 3D, and 4D generative tasks. The results show that our synthetic data significantly boosts the performance of existing baseline models, demonstrating Follow-Your-Instruction's potential as a scalable and effective data engine for generative intelligence.
- Abstract(参考訳): AI生成コンテンツ(AIGC)の需要が高まり、高品質で多様な、スケーラブルなデータの必要性がますます重要になっている。
しかし、大規模な実世界のデータ収集はコストと時間を要するため、下流アプリケーションの開発を妨げている。
レンダリングプロセスを通じてタスク固有のデータを収集しようとする作業もあるが、ほとんどのアプローチは手動のシーン構築に依存しており、スケーラビリティと精度を制限している。
これらの課題に対処するために,高品質な2D,3D,4Dデータを自動合成するマルチモーダル大規模言語モデル(MLLM)駆動のフレームワークであるFollow-Your-Instructionを提案する。
我々の \textbf{Follow-Your-Instruction} はまず、MLLM-Collector を用いて、マルチモーダル入力を通じて資産とその関連する記述を収集する。
次に、3Dレイアウトを構築し、MLLM-Generator と MLLM-Optimizer を併用した多視点シーンによるセマンティックリファインメントにVision-Language Models (VLM) を利用する。
最後に、MLLM-Plannerを使用して、時間的に一貫性のある将来のフレームを生成する。
本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
その結果,我々の合成データによって既存のベースラインモデルの性能が大幅に向上し,Follow-Your-Instruction が生成知能のためのスケーラブルで効果的なデータエンジンとしての可能性を示した。
関連論文リスト
- mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Multimodal LLM for Intelligent Transportation Systems [0.0]
本稿では,アプリケーション,機械学習手法,ハードウェア機器の交わりをカプセル化する新しい3次元フレームワークを提案する。
複数の機械学習アルゴリズムを使う代わりに、我々のフレームワークは時系列、画像、ビデオを分析する単一のデータ中心のLLMアーキテクチャを使用する。
我々は,このLLMフレームワークを,Oxford Radar RobotCar,D-Behavior (D-Set),MotionalのnuScenes,Comma2k19など,さまざまなセンサデータセットに適用した。
論文 参考訳(メタデータ) (2024-12-16T11:50:30Z) - Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。
統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。
タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T09:03:48Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。