論文の概要: ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model
- arxiv url: http://arxiv.org/abs/2311.17618v2
- Date: Thu, 30 Nov 2023 08:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 11:23:15.200148
- Title: ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model
- Title(参考訳): ShapeGPT:統一多モード言語モデルによる3次元形状生成
- Authors: Fukun Yin, Xin Chen, Chi Zhang, Biao Jiang, Zibo Zhao, Jiayuan Fan,
Gang Yu, Taihao Li, Tao Chen
- Abstract要約: 本稿では,複数の形状関連タスクに対処するために,強力な事前学習言語モデルを活用する形状関連マルチモーダルフレームワークであるShapeGPTを提案する。
具体的には、ShapeGPTは、連続した形状を形語に識別するための単語文パラグラフフレームワークを使用し、さらにこれらの単語を形文のために組み立て、複数段落の指示文に統合する。
実験により、ShapeGPTは、テキスト・トゥ・シェイプ、シェイプ・トゥ・テキスト、シェイプ・コンプリート、形状編集など、形状関連タスクに匹敵する性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 27.122194733305594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The advent of large language models, enabling flexibility through
instruction-driven approaches, has revolutionized many traditional generative
tasks, but large models for 3D data, particularly in comprehensively handling
3D shapes with other modalities, are still under-explored. By achieving
instruction-based shape generations, versatile multimodal generative shape
models can significantly benefit various fields like 3D virtual construction
and network-aided design. In this work, we present ShapeGPT, a shape-included
multi-modal framework to leverage strong pre-trained language models to address
multiple shape-relevant tasks. Specifically, ShapeGPT employs a
word-sentence-paragraph framework to discretize continuous shapes into shape
words, further assembles these words for shape sentences, as well as integrates
shape with instructional text for multi-modal paragraphs. To learn this
shape-language model, we use a three-stage training scheme, including shape
representation, multimodal alignment, and instruction-based generation, to
align shape-language codebooks and learn the intricate correlations among these
modalities. Extensive experiments demonstrate that ShapeGPT achieves comparable
performance across shape-relevant tasks, including text-to-shape,
shape-to-text, shape completion, and shape editing.
- Abstract(参考訳): 命令駆動アプローチによって柔軟性を実現する大規模言語モデルの出現は、多くの伝統的な生成タスクに革命をもたらしたが、特に他のモダリティで包括的に3d形状を扱う3dデータのための大規模モデルはまだ未検討のままである。
命令ベースの形状生成によって、多目的多モード生成形状モデルは、3D仮想構築やネットワーク支援設計といった様々な分野に多大な利益をもたらすことができる。
本研究では,複数の形状関連タスクに対処するために,強力な事前学習言語モデルを活用する形状対応マルチモーダルフレームワークであるShapeGPTを提案する。
具体的には、ShapeGPTは単語文パラグラフの枠組みを用いて、連続した形を形づくり語に識別し、さらにこれらの単語を形づくり文のために組み立て、また複数段落の指示文と整合する。
この形状言語モデルを学ぶために、形状表現、マルチモーダルアライメント、命令に基づく生成を含む3段階のトレーニングスキームを用いて、形状言語コードブックをアライメントし、それらのモダリティ間の複雑な相関を学習する。
大規模な実験により、ShapeGPTは、テキスト・トゥ・シェイプ、シェイプ・トゥ・テキスト、シェイプ・コンプリート、形状編集など、形状関連タスクに匹敵する性能を達成している。
関連論文リスト
- EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape
Generation [124.27302003578903]
本稿では,3次元形状を生成するための新しいテキスト誘導手法を提案する。
我々は,明示的表現と暗黙的表現の強みを組み合わせたハイブリッド3D表現,すなわちEXIMを活用する。
テキスト誘導型3次元形状を用いた室内シーンを一貫したスタイルで生成する手法の適用性を示した。
論文 参考訳(メタデータ) (2023-11-03T05:01:51Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - 3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion
Process [32.3773514247982]
複数の3次元タスクに適した,一般化された3次元形状生成モデルを開発した。
設計は、提案した3次元形状先行モデルに高忠実度、多彩な特徴と、相互モダリティアライメントの能力を併用する。
論文 参考訳(メタデータ) (2023-03-18T12:50:29Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。
テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-28T10:20:03Z) - ShapeAssembly: Learning to Generate Programs for 3D Shape Structure
Synthesis [38.27280837835169]
本研究では,3次元形状構造のためのドメイン固有の「アセンブリ言語」であるShapeAssemblyを提案する。
PartNetデータセットの既存の形状構造からShapeAssemblyプログラムを抽出する方法を示す。
生成したプログラムから出力される形状を、他の最近の形状構造モデルと比較することにより、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2020-09-17T02:26:45Z) - Learning Generative Models of Shape Handles [43.41382075567803]
ハンドセットとして3次元形状を合成する生成モデルを提案する。
我々のモデルは、様々な濃度と異なる種類のハンドルを持つハンドセットを生成することができる。
得られた形状表現は直感的であり,従来の最先端技術よりも優れた品質が得られることを示す。
論文 参考訳(メタデータ) (2020-04-06T22:35:55Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。