論文の概要: Instructive3D: Editing Large Reconstruction Models with Text Instructions
- arxiv url: http://arxiv.org/abs/2501.04374v1
- Date: Wed, 08 Jan 2025 09:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:59.072045
- Title: Instructive3D: Editing Large Reconstruction Models with Text Instructions
- Title(参考訳): インストラクティブ3D:テキストインストラクテーションによる大規模再構成モデルの編集
- Authors: Kunal Kathare, Ankit Dhiman, K Vikas Gowda, Siddharth Aravindan, Shubham Monga, Basavaraja Shanthappa Vandrotti, Lokesh R Boregowda,
- Abstract要約: Instructive3Dは、3Dオブジェクトの生成と微細な編集を1つのモデルに統合する新しいLEMベースのモデルである。
Instructive3Dは編集プロンプトによって指定された特性を持つ優れた3Dオブジェクトを生成する。
- 参考スコア(独自算出の注目度): 2.9575146209034853
- License:
- Abstract: Transformer based methods have enabled users to create, modify, and comprehend text and image data. Recently proposed Large Reconstruction Models (LRMs) further extend this by providing the ability to generate high-quality 3D models with the help of a single object image. These models, however, lack the ability to manipulate or edit the finer details, such as adding standard design patterns or changing the color and reflectance of the generated objects, thus lacking fine-grained control that may be very helpful in domains such as augmented reality, animation and gaming. Naively training LRMs for this purpose would require generating precisely edited images and 3D object pairs, which is computationally expensive. In this paper, we propose Instructive3D, a novel LRM based model that integrates generation and fine-grained editing, through user text prompts, of 3D objects into a single model. We accomplish this by adding an adapter that performs a diffusion process conditioned on a text prompt specifying edits in the triplane latent space representation of 3D object models. Our method does not require the generation of edited 3D objects. Additionally, Instructive3D allows us to perform geometrically consistent modifications, as the edits done through user-defined text prompts are applied to the triplane latent representation thus enhancing the versatility and precision of 3D objects generated. We compare the objects generated by Instructive3D and a baseline that first generates the 3D object meshes using a standard LRM model and then edits these 3D objects using text prompts when images are provided from the Objaverse LVIS dataset. We find that Instructive3D produces qualitatively superior 3D objects with the properties specified by the edit prompts.
- Abstract(参考訳): トランスフォーマーベースの手法により、ユーザはテキストや画像データを作成し、修正し、理解することができる。
最近提案されたLarge Restruction Models (LRMs) は、単一のオブジェクト画像の助けを借りて高品質な3Dモデルを生成する機能を提供することで、これをさらに拡張している。
しかし、これらのモデルは、標準的なデザインパターンの追加や生成されたオブジェクトの色と反射率の変更など、より細かい詳細を操作または編集する能力に欠けており、拡張現実、アニメーション、ゲームのような領域で非常に役立つ、きめ細かい制御が欠如している。
この目的のために LRM をネーティブに訓練するには、正確に編集された画像と3Dオブジェクトペアを生成する必要がある。
本稿では、3Dオブジェクトの生成と微粒化をユーザ・テキスト・プロンプトを通じて1つのモデルに統合する新しいLEMモデルであるInstructive3Dを提案する。
本研究では,3次元オブジェクトモデルの3次元ラテント空間表現における編集を規定するテキストプロンプトに条件付き拡散処理を実行するアダプタを追加することで,これを実現する。
編集された3Dオブジェクトの生成は不要である。
さらに、インストラクティブ3Dは、ユーザ定義のテキストプロンプトによる編集を3次元潜在表現に適用することにより、3次元オブジェクトの汎用性と精度を向上させるため、幾何学的に一貫した修正を行うことができる。
Instructive3Dで生成されたオブジェクトと,まず標準LRMモデルを用いて3Dオブジェクトメッシュを生成するベースラインを比較し,Objaverse LVISデータセットから画像が提供される場合にテキストプロンプトを用いてこれらの3Dオブジェクトを編集する。
Instructive3Dは、編集プロンプトによって指定された特性を持つ質的に優れた3Dオブジェクトを生成する。
関連論文リスト
- Manipulating Vehicle 3D Shapes through Latent Space Editing [0.0]
本稿では,車載3Dモデルに対する連続的,高精度,属性特異的な修正を可能にする,事前学習型回帰器を用いたフレームワークを提案する。
提案手法は,車両3Dオブジェクトの固有性を保持するだけでなく,多属性編集もサポートしており,モデルの構造的整合性を損なうことなく,広範囲のカスタマイズが可能となる。
論文 参考訳(メタデータ) (2024-10-31T13:41:16Z) - Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - Image Sculpting: Precise Object Editing with 3D Geometry Control [33.9777412846583]
Image Sculptingは、3D幾何学とグラフィックスのツールを組み込むことで、2D画像を編集する新しいフレームワークである。
これは、ポーズ編集、回転、翻訳、3D合成、彫刻、シリアル追加といった、正確で定量化され、物理的に証明可能な編集オプションをサポートする。
論文 参考訳(メタデータ) (2024-01-02T18:59:35Z) - IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは複雑な$textbfI$mage $textbfP$romptsから複雑な外観特徴をキャプチャし、合成した3Dオブジェクトをこれらの特徴と整合させる。
IPDreamerはテキストと複雑な画像のプロンプトに整合した高品質な3Dオブジェクトを一貫して生成することを示した。
論文 参考訳(メタデータ) (2023-10-09T03:11:08Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。