論文の概要: GPT4Point: A Unified Framework for Point-Language Understanding and
Generation
- arxiv url: http://arxiv.org/abs/2312.02980v1
- Date: Tue, 5 Dec 2023 18:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:36:48.044600
- Title: GPT4Point: A Unified Framework for Point-Language Understanding and
Generation
- Title(参考訳): GPT4Point: ポイント言語理解と生成のための統一フレームワーク
- Authors: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang,
Dahua Lin, Hengshuang Zhao
- Abstract要約: GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
- 参考スコア(独自算出の注目度): 76.61439685940272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have excelled in 2D image-text
comprehension and image generation, but their understanding of the 3D world is
notably deficient, limiting progress in 3D language understanding and
generation. To solve this problem, we introduce GPT4Point, an innovative
groundbreaking point-language multimodal model designed specifically for
unified 3D object understanding and generation within the MLLM framework.
GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text
reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point
is equipped with advanced capabilities for controllable 3D generation, it can
get high-quality results through a low-quality point-text feature maintaining
the geometric shapes and colors. To support the expansive needs of 3D
object-text pairs, we develop Pyramid-XL, a point-language dataset annotation
engine. It constructs a large-scale database over 1M objects of varied text
granularity levels from the Objaverse-XL dataset, essential for training
GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D
point-language understanding capabilities. In extensive evaluations, GPT4Point
has demonstrated superior performance in understanding and generation.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(mllm)は2次元画像理解と画像生成に優れているが、3次元世界に対する理解は著しく不足しており、3次元言語理解と生成の進歩を制限している。
GPT4Pointは,MLLMフレームワーク内での3次元オブジェクトの理解と生成に特化して設計された,革新的な起点言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
さらに、GPT4Pointは、制御可能な3D生成のための高度な機能を備えており、幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果を得ることができる。
3次元オブジェクト・テキスト・ペアの拡大ニーズに対応するために,ポイント言語データセットアノテーションエンジンであるPraamid-XLを開発した。
GPT4Pointのトレーニングに不可欠なObjaverse-XLデータセットから,さまざまなテキストの粒度レベルを持つ100万件以上の大規模データベースを構築する。
3dポイント言語理解能力を評価するための包括的なベンチマークが提案されている。
広範な評価において、GPT4Pointは理解と生成において優れた性能を示した。
関連論文リスト
- Mono3DVG: 3D Visual Grounding in Monocular Images [12.191320182791483]
外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。
大規模データセット Mono3DRefer を構築し,それに対応する幾何学的テキスト記述を備えた3Dオブジェクトを対象とする。
テキスト埋め込みにおける外観情報と幾何学情報の両方を利用するエンドツーエンドのトランスフォーマーネットワークであるMono3DVG-TRを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:49:59Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [50.57513088909881]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [53.986321389412154]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [67.1783384610417]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - Joint Representation Learning for Text and 3D Point Cloud [35.67281936143821]
言語誘導型3Dポイントクラウドモデルを構築するための新しいText4Pointフレームワークを提案する。
提案されたText4Pointは、事前トレーニングと微調整のパラダイムに従っている。
我々のモデルは、ポイントクラウドセマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出など、さまざまなダウンストリームタスクにおいて一貫した改善を示す。
論文 参考訳(メタデータ) (2023-01-18T15:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。