論文の概要: CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21798v1
- Date: Thu, 29 Jan 2026 14:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.902389
- Title: CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models
- Title(参考訳): CG-MLLM:マルチモーダル大言語モデルによる3次元コンテンツのキャプションと生成
- Authors: Junming Huang, Weiwei Xu,
- Abstract要約: CG-MLLMは、単一のフレームワークで3Dキャプションと高解像度の3D生成が可能な、新しいLarge Language Modelである。
CG-MLLMは、訓練済みの視覚言語バックボーンと専用の3D VAEラテント空間を統合することで、標準トークンと空間ブロック間の長いコンテキスト相互作用を促進する。
- 参考スコア(独自算出の注目度): 18.035268191933117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models(LLMs) have revolutionized text generation and multimodal perception, but their capabilities in 3D content generation remain underexplored. Existing methods compromise by producing either low-resolution meshes or coarse structural proxies, failing to capture fine-grained geometry natively. In this paper, we propose CG-MLLM, a novel Multi-modal Large Language Model (MLLM) capable of 3D captioning and high-resolution 3D generation in a single framework. Leveraging the Mixture-of-Transformer architecture, CG-MLLM decouples disparate modeling needs, where the Token-level Autoregressive (TokenAR) Transformer handles token-level content, and the Block-level Autoregressive (BlockAR) Transformer handles block-level content. By integrating a pre-trained vision-language backbone with a specialized 3D VAE latent space, CG-MLLM facilitates long-context interactions between standard tokens and spatial blocks within a single integrated architecture. Experimental results show that CG-MLLM significantly outperforms existing MLLMs in generating high-fidelity 3D objects, effectively bringing high-resolution 3D content creation into the mainstream LLM paradigm.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成とマルチモーダル認識に革命をもたらしたが、3Dコンテンツ生成におけるそれらの能力はまだ未熟である。
既存の手法は、低分解能メッシュか粗い構造プロキシを生成することで妥協し、微粒な幾何学をネイティブに捉えられなかった。
本稿では,3次元キャプションと高解像度3次元生成が可能な新しい多モード大言語モデル(MLLM)であるCG-MLLMを提案する。
Token-level Autoregressive (TokenAR) Transformerはトークンレベルのコンテンツを処理し、Block-level Autoregressive (BlockAR) Transformerはブロックレベルのコンテンツを処理している。
CG-MLLMは、トレーニング済みの視覚言語バックボーンと専用の3D VAEラテント空間を統合することで、標準トークンと空間ブロック間の長いコンテキスト相互作用を単一の統合アーキテクチャ内で促進する。
実験の結果,CG-MLLMは高忠実度3Dオブジェクトの生成において既存のMLLMを著しく上回り,高精細度3Dコンテンツ作成をメインストリームLLMパラダイムにもたらすことがわかった。
関連論文リスト
- S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting [16.896443736904356]
既存の3Dセグメンテーション手法は、しばしば曖昧で推論に基づく指示を解釈するのに苦労する。
本稿では,オープンワールド推論に基づくセグメンテーションを実現する,革新的なMLLMエージェントフレームワークであるREALMを紹介する。
我々のフレームワークは、オブジェクトの削除、置換、スタイル転送など、様々な3Dインタラクションタスクをシームレスにサポートしています。
論文 参考訳(メタデータ) (2025-10-18T08:53:08Z) - Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh [79.20802127426003]
MeshLLMは、大規模言語モデル(LLM)を活用して、テキストシリアライズされた3Dメッシュを理解して生成するフレームワークである。
我々は3次元メッシュを構造的に意味のあるサブユニットに分割するプリミティブ・メシュ分解戦略を導入する。
実験により、MeshLLMはメッシュ生成の品質と形状理解の両方において最先端のLLaMA-Meshよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-02T07:37:37Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。