論文の概要: MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh
- arxiv url: http://arxiv.org/abs/2508.01242v2
- Date: Tue, 05 Aug 2025 05:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.116452
- Title: MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh
- Title(参考訳): MeshLLM: 3Dメッシュの段階的理解と生成に大規模言語モデルを活用する
- Authors: Shuangkang Fang, I-Chao Shen, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Shuchang Zhou, Wenrui Ding, Takeo Igarashi, Ming-Hsuan Yang,
- Abstract要約: MeshLLMは、大規模言語モデル(LLM)を活用して、テキストシリアライズされた3Dメッシュを理解して生成するフレームワークである。
我々は3次元メッシュを構造的に意味のあるサブユニットに分割するプリミティブ・メシュ分解戦略を導入する。
実験により、MeshLLMはメッシュ生成の品質と形状理解の両方において最先端のLLaMA-Meshよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 79.20802127426003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MeshLLM, a novel framework that leverages large language models (LLMs) to understand and generate text-serialized 3D meshes. Our approach addresses key limitations in existing methods, including the limited dataset scale when catering to LLMs' token length and the loss of 3D structural information during mesh serialization. We introduce a Primitive-Mesh decomposition strategy, which divides 3D meshes into structurally meaningful subunits. This enables the creation of a large-scale dataset with 1500k+ samples, almost 50 times larger than previous methods, which aligns better with the LLM scaling law principles. Furthermore, we propose inferring face connectivity from vertices and local mesh assembly training strategies, significantly enhancing the LLMs' ability to capture mesh topology and spatial structures. Experiments show that MeshLLM outperforms the state-of-the-art LLaMA-Mesh in both mesh generation quality and shape understanding, highlighting its great potential in processing text-serialized 3D meshes.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)を活用してテキストシリアライズされた3Dメッシュを理解し,生成する新しいフレームワークであるMeshLLMを提案する。
提案手法は,LLMのトークン長に対処する際のデータセットスケールの制限や,メッシュシリアライゼーション時の3次元構造情報の損失など,既存の手法における重要な制約に対処する。
我々は3次元メッシュを構造的に意味のあるサブユニットに分割するプリミティブ・メシュ分解戦略を導入する。
これにより、1500k以上のサンプルを持つ大規模データセットの作成が可能になる。
さらに,頂点と局所メッシュ組立訓練戦略から顔の接続性を推定し,メッシュトポロジや空間構造を捉えるLLMの能力を大幅に向上させる。
実験によると、MeshLLMはメッシュ生成の品質と形状理解の両方において最先端のLLaMA-Meshよりも優れており、テキストシリアライズされた3Dメッシュを処理する大きな可能性を示している。
関連論文リスト
- Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文 参考訳(メタデータ) (2024-11-14T17:08:23Z) - VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。
本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。
以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T18:17:09Z) - MeshXL: Neural Coordinate Field for Generative 3D Foundation Models [51.1972329762843]
本稿では,現代の大規模言語モデルを用いた3次元メッシュ生成のプロセスに対処する,事前学習型自己回帰モデルの生成ファミリを提案する。
MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。
論文 参考訳(メタデータ) (2024-05-31T14:35:35Z) - Locally Adaptive Neural 3D Morphable Models [38.38400553022714]
本稿では、3Dメッシュの生成と操作を学習するフレームワークであるLocally Adaptive Morphable Model (LAMM)を紹介する。
非常に効率的な計算グラフにより、我々のネットワークは、以前の手法で必要とされるメモリのごく一部でトレーニングできる。
さらに、より高度な編集操作のためのプリミティブとして局所幾何学制御を活用し、微分関数のセットを示す。
論文 参考訳(メタデータ) (2024-01-05T18:28:51Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。