論文の概要: Uni3D-LLM: Unifying Point Cloud Perception, Generation and Editing with
Large Language Models
- arxiv url: http://arxiv.org/abs/2402.03327v1
- Date: Tue, 9 Jan 2024 06:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:54:18.364396
- Title: Uni3D-LLM: Unifying Point Cloud Perception, Generation and Editing with
Large Language Models
- Title(参考訳): Uni3D-LLM:大規模言語モデルによるポイントクラウドの認識、生成、編集の統合
- Authors: Dingning Liu, Xiaoshui Huang, Yuenan Hou, Zhihui Wang, Zhenfei Yin,
Yongshun Gong, Peng Gao, Wanli Ouyang
- Abstract要約: 我々は,Large Language Model(LLM)を活用した統合フレームワークであるUni3D-LLMを導入し,ポイントクラウドシーン内での3次元認識,生成,編集のタスクを統合する。
Uni3D-LLMは自然言語の表現力を活用し、3Dオブジェクトの生成と編集の正確なコマンドを可能にする。
- 参考スコア(独自算出の注目度): 71.2931570433261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Uni3D-LLM, a unified framework that leverages a
Large Language Model (LLM) to integrate tasks of 3D perception, generation, and
editing within point cloud scenes. This framework empowers users to
effortlessly generate and modify objects at specified locations within a scene,
guided by the versatility of natural language descriptions. Uni3D-LLM harnesses
the expressive power of natural language to allow for precise command over the
generation and editing of 3D objects, thereby significantly enhancing
operational flexibility and controllability. By mapping point cloud into the
unified representation space, Uni3D-LLM achieves cross-application
functionality, enabling the seamless execution of a wide array of tasks,
ranging from the accurate instantiation of 3D objects to the diverse
requirements of interactive design. Through a comprehensive suite of rigorous
experiments, the efficacy of Uni3D-LLM in the comprehension, generation, and
editing of point cloud has been validated. Additionally, we have assessed the
impact of integrating a point cloud perception module on the generation and
editing processes, confirming the substantial potential of our approach for
practical applications.
- Abstract(参考訳): 本稿では,Large Language Model(LLM)を利用した統合フレームワークであるUni3D-LLMを紹介し,ポイントクラウドシーン内での3次元認識,生成,編集のタスクを統合する。
このフレームワークは、自然言語記述の汎用性によって導かれる、シーン内の特定の場所でオブジェクトを無力に生成し、修正することを可能にする。
Uni3D-LLMは自然言語の表現力を利用して、3Dオブジェクトの生成と編集の正確なコマンドを可能にする。
ポイントクラウドを統一表現空間にマッピングすることにより、Uni3D-LLMはクロスアプリケーション機能を実現し、3Dオブジェクトの正確なインスタンス化からインタラクティブデザインの多様な要求まで、幅広いタスクのシームレスな実行を可能にする。
一連の厳密な実験を通じて、ポイントクラウドの理解、生成、編集におけるuni3d-llmの有効性が検証された。
さらに,ポイントクラウド認識モジュールの統合が生成および編集プロセスに与える影響を評価し,実用的なアプリケーションへのアプローチの実質的な可能性を確認した。
関連論文リスト
- PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model [4.079327215055764]
3Dオブジェクト上で動作可能な領域を識別する作業であるアフォーマンス理解は、ロボットシステムが物理的な世界の中で関わり、操作できるようにする上で重要な役割を担っている。
視覚言語モデル(VLM)は高レベルの推論において優れているが、効果的な人間とロボットの相互作用に必要な微妙な物理的特性の把握には不十分である。
PAVLMは、事前訓練された言語モデルに埋め込まれた広範なマルチモーダル知識を利用して、ポイントクラウドの3Dアベイランス理解を強化する革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-10-15T12:53:42Z) - COMOGen: A Controllable Text-to-3D Multi-object Generation Framework [22.05619100307402]
本稿では,テキストから3次元のマルチオブジェクト生成フレームワークであるCOMOGenを紹介する。
COMOGenは、レイアウトとマルチビュー事前知識の蒸留により、複数の3Dオブジェクトを同時に生成することを可能にする。
総合的な実験は、最先端の手法と比較して、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-01T02:50:38Z) - Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。
本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文 参考訳(メタデータ) (2024-05-13T17:56:13Z) - Interactive3D: Create What You Want by Interactive 3D Generation [13.003964182554572]
我々はインタラクティブな3D生成のための革新的なフレームワークであるInteractive3Dを紹介した。
実験の結果,Interactive3Dは3D生成の制御性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-25T11:06:57Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding [57.64806066986975]
3D Visual Groundingはテキスト記述に基づく3Dオブジェクトのローカライズを目的としている。
ゼロショットオープン語彙3DVGのための新しいビジュアルプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-11-26T19:01:14Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。