論文の概要: Align 3D Representation and Text Embedding for 3D Content Personalization
- arxiv url: http://arxiv.org/abs/2508.16932v1
- Date: Sat, 23 Aug 2025 07:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.26011
- Title: Align 3D Representation and Text Embedding for 3D Content Personalization
- Title(参考訳): 3次元コンテンツパーソナライズのためのアライメント3次元表現とテキスト埋め込み
- Authors: Qi Song, Ziyuan Luo, Ka Chun Cheung, Simon See, Renjie Wan,
- Abstract要約: Invert3Dは便利な3Dコンテンツパーソナライズのためのフレームワークである。
我々は,3Dコンテンツをテキスト埋め込みに整合した3D埋め込みに投影する,カメラ条件の3D-to-textインバース機構を開発した。
- 参考スコア(独自算出の注目度): 45.9056653321534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in NeRF and 3DGS have significantly enhanced the efficiency and quality of 3D content synthesis. However, efficient personalization of generated 3D content remains a critical challenge. Current 3D personalization approaches predominantly rely on knowledge distillation-based methods, which require computationally expensive retraining procedures. To address this challenge, we propose \textbf{Invert3D}, a novel framework for convenient 3D content personalization. Nowadays, vision-language models such as CLIP enable direct image personalization through aligned vision-text embedding spaces. However, the inherent structural differences between 3D content and 2D images preclude direct application of these techniques to 3D personalization. Our approach bridges this gap by establishing alignment between 3D representations and text embedding spaces. Specifically, we develop a camera-conditioned 3D-to-text inverse mechanism that projects 3D contents into a 3D embedding aligned with text embeddings. This alignment enables efficient manipulation and personalization of 3D content through natural language prompts, eliminating the need for computationally retraining procedures. Extensive experiments demonstrate that Invert3D achieves effective personalization of 3D content. Our work is available at: https://github.com/qsong2001/Invert3D.
- Abstract(参考訳): NeRFおよび3DGSの最近の進歩は、3Dコンテンツ合成の効率と品質を著しく向上させた。
しかし、生成した3Dコンテンツの効率的なパーソナライズは依然として重要な課題である。
現在の3Dパーソナライゼーションアプローチは主に、計算に高価な再訓練手順を必要とする知識蒸留に基づく手法に依存している。
この課題に対処するために, 便利な3Dコンテンツパーソナライズのための新しいフレームワークである \textbf{Invert3D} を提案する。
現在、CLIPのような視覚言語モデルでは、アライメントされた視覚テキスト埋め込み空間を通じて直接画像のパーソナライズが可能になっている。
しかし、3Dコンテンツと2D画像の固有の構造的差異は、これらの技術の3Dパーソナライズへの直接的適用を妨げる。
提案手法は,3次元表現とテキスト埋め込み空間の整合性を確立することによって,このギャップを埋める。
具体的には,3Dコンテンツを3D埋め込みに投影し,テキスト埋め込みと整合した3D埋め込みを実現するカメラコンディショニング3D-to-textインバース機構を開発した。
このアライメントにより、自然言語プロンプトによる3Dコンテンツの効率的な操作とパーソナライズが可能となり、計算的再トレーニングの必要がなくなる。
Invert3Dは3Dコンテンツの効果的なパーソナライズを実現する。
私たちの仕事は、https://github.com/qsong2001/Invert3D.comで利用可能です。
関連論文リスト
- Aligning Text, Images, and 3D Structure Token-by-Token [8.521599463802637]
構造化3次元シーンにおける自己回帰モデルの可能性について検討する。
言語,画像,3Dシーンを整合させる統一LLMフレームワークを提案する。
実世界の3Dオブジェクト認識タスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2025-06-09T17:59:37Z) - 3D-Fixup: Advancing Photo Editing with 3D Priors [32.83193513442457]
3D-Fixupは、学習した3Dプリエントによってガイドされた2Dイメージを編集する新しいフレームワークである。
拡散モデルの生成力を利用するトレーニングベースアプローチを利用する。
3D-Fixupは複雑でアイデンティティの整合した3D認識編集を効果的にサポートする。
論文 参考訳(メタデータ) (2025-05-15T17:59:51Z) - Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint [61.25279122171029]
テキストプロンプトから制御可能で構成可能な3D生成が可能なフレームワークを提案する。
提案手法は2次元レイアウトを青写真として活用し,3次元生成の精密かつ確実な制御を容易にする。
論文 参考訳(メタデータ) (2024-10-20T13:41:50Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。