論文の概要: Advancing Multimodal LLMs by Large-Scale 3D Visual Instruction Dataset Generation
- arxiv url: http://arxiv.org/abs/2507.08513v2
- Date: Wed, 23 Jul 2025 22:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.020328
- Title: Advancing Multimodal LLMs by Large-Scale 3D Visual Instruction Dataset Generation
- Title(参考訳): 大規模3次元視覚インストラクションデータセット生成によるマルチモーダルLCMの高速化
- Authors: Liu He, Xiao Zeng, Yizhi Song, Albert Y. C. Chen, Lu Xia, Shashwat Verma, Sankalp Dayal, Min Sun, Cheng-Hao Kuo, Daniel Aliaga,
- Abstract要約: 大規模な3次元視覚的命令データセットを作成するための合成生成パイプラインを提案する。
我々のフレームワークは3Dアセットを入力として取り、レンダリングと拡散に基づく画像生成モデルを用いてフォトリアリスティックな画像を生成する。
我々は、正確なカメラオブジェクトアノテーションとそれに対応するベンチマークを備えた240K VQAのデータセットであるUltimate3Dを作成する。
- 参考スコア(独自算出の注目度): 11.135834391259396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) struggle with accurately capturing camera-object relations, especially for object orientation, camera viewpoint, and camera shots. This stems from the fact that existing MLLMs are trained on images with limited diverse camera-object relations and corresponding textual descriptions. To address this, we propose a synthetic generation pipeline to create large-scale 3D visual instruction datasets. Our framework takes 3D assets as input and uses rendering and diffusion-based image generation models to create photorealistic images preserving precise camera-object relations. Additionally, large language models (LLMs) are used to generate text prompts for guiding visual instruction tuning and controlling image generation. We create Ultimate3D, a dataset of 240K VQAs with precise camera-object annotations, and corresponding benchmark. MLLMs fine-tuned on our proposed dataset outperform commercial models by a large margin, achieving an average accuracy improvement of 33.4% on camera-object relation recognition tasks. Our code, dataset, and benchmark will contribute to broad MLLM applications.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、特にオブジェクト指向、カメラ視点、カメラショットにおいて、カメラオブジェクトの関係を正確に捉えるのに苦労する。
これは、既存のMLLMが、限られた多様なカメラオブジェクト関係と対応するテキスト記述を持つ画像に基づいて訓練されているという事実に起因している。
そこで本研究では,大規模な3次元ビジュアル・インストラクション・データセットを作成するための合成パイプラインを提案する。
我々のフレームワークは3Dアセットを入力として取り、レンダリングと拡散に基づく画像生成モデルを用いて、正確なカメラオブジェクトの関係を保ったフォトリアリスティックな画像を生成する。
さらに、大きな言語モデル(LLM)は、視覚的な命令のチューニングを誘導し、画像生成を制御するためのテキストプロンプトを生成するために使用される。
我々は、正確なカメラオブジェクトアノテーションとそれに対応するベンチマークを備えた240K VQAのデータセットであるUltimate3Dを作成する。
MLLMは、提案したデータセットに基づいて細調整され、商業モデルよりも大きなマージンで、カメラとオブジェクトの関係認識タスクの平均精度が33.4%向上した。
私たちのコード、データセット、ベンチマークは、幅広いMLLMアプリケーションに貢献します。
関連論文リスト
- Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis [44.66179436245703]
Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。
3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。
本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
論文 参考訳(メタデータ) (2025-08-07T17:12:54Z) - SpatialLM: Training Large Language Models for Structured Indoor Modeling [34.0957676434764]
SpaceLMは3Dポイントクラウドデータを処理し、構造化された3Dシーン理解出力を生成するために設計された大きな言語モデルである。
室内の12,328の点雲と地上の3Dアノテーションからなる大規模で高品質な合成データセットを収集する。
提案モデルでは,3次元物体検出において,レイアウト推定における最先端性能と競合性を示す。
論文 参考訳(メタデータ) (2025-06-09T07:10:58Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - Compositional 3D-aware Video Generation with LLM Director [27.61057927559143]
本稿では,3次元表現において各概念を個別に生成し,大言語モデルと2次元拡散モデルから先行概念を合成する新しいパラダイムを提案する。
本手法では,テキストから高忠実度映像を生成でき,各概念を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-31T23:07:22Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。