論文の概要: LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models
- arxiv url: http://arxiv.org/abs/2411.09595v1
- Date: Thu, 14 Nov 2024 17:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:45.018917
- Title: LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models
- Title(参考訳): LLaMA-Mesh: 言語モデルによる3Dメッシュ生成の統合
- Authors: Zhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng,
- Abstract要約: この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
- 参考スコア(独自算出の注目度): 62.85566496673856
- License:
- Abstract: This work explores expanding the capabilities of large language models (LLMs) pretrained on text to generate 3D meshes within a unified model. This offers key advantages of (1) leveraging spatial knowledge already embedded in LLMs, derived from textual sources like 3D tutorials, and (2) enabling conversational 3D generation and mesh understanding. A primary challenge is effectively tokenizing 3D mesh data into discrete tokens that LLMs can process seamlessly. To address this, we introduce LLaMA-Mesh, a novel approach that represents the vertex coordinates and face definitions of 3D meshes as plain text, allowing direct integration with LLMs without expanding the vocabulary. We construct a supervised fine-tuning (SFT) dataset enabling pretrained LLMs to (1) generate 3D meshes from text prompts, (2) produce interleaved text and 3D mesh outputs as required, and (3) understand and interpret 3D meshes. Our work is the first to demonstrate that LLMs can be fine-tuned to acquire complex spatial knowledge for 3D mesh generation in a text-based format, effectively unifying the 3D and text modalities. LLaMA-Mesh achieves mesh generation quality on par with models trained from scratch while maintaining strong text generation performance.
- Abstract(参考訳): この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
これは(1)3Dチュートリアルのようなテキストソースから派生したLLMに埋め込まれた空間知識を活用すること、(2)対話型3D生成とメッシュ理解を可能にすることの主な利点を提供する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
LLaMA-Meshは3次元メッシュの頂点座標と顔定義をプレーンテキストとして表現し,語彙を拡張せずにLLMと直接統合する手法である。
我々は,(1)テキストプロンプトから3Dメッシュを生成すること,(2)インターリーブされたテキストと3Dメッシュの出力を必要に応じて生成すること,(3)3Dメッシュの理解と解釈を可能にする教師付き微調整データセットを構築した。
我々の研究は、LLMが3Dメッシュ生成のための複雑な空間知識をテキストベースで取得し、3Dとテキストのモダリティを効果的に統一できることを示す最初の試みである。
LLaMA-Meshは、強力なテキスト生成性能を維持しながら、スクラッチからトレーニングされたモデルと同等のメッシュ生成品質を実現する。
関連論文リスト
- More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding [22.753452376062565]
GreenPLMは、最小限の3Dポイントクラウドとテキストデータペアで堅牢な3Dオブジェクト理解を可能にすることを目的としている。
画像とテキストのアライメントにCLIPにインスパイアされた我々は、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。
3Dオブジェクトのフリーテキスト記述を6M生成し、3段階のトレーニング戦略を設計し、LLMが様々なモダリティ間の本質的な接続をよりよく探索できるようにする。
論文 参考訳(メタデータ) (2024-08-28T17:38:44Z) - VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。
本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。
以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T18:17:09Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR
Understanding [36.66305190056456]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。
本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。
我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
論文 参考訳(メタデータ) (2023-12-21T17:52:12Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。