論文の概要: Controllable 3D Object Generation with Single Image Prompt
- arxiv url: http://arxiv.org/abs/2511.22194v1
- Date: Thu, 27 Nov 2025 08:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.453262
- Title: Controllable 3D Object Generation with Single Image Prompt
- Title(参考訳): 単一画像プロンプトによる3次元オブジェクト生成制御
- Authors: Jaeseok Lee, Jaekoo Lee,
- Abstract要約: 3Dオブジェクト生成タスクは、コンピュータビジョンで最も急速に成長しているセグメントの1つである。
テキスト・ツー・イメージ生成モデルは、テキスト・インバージョンを使用して、擬似テキストの埋め込み空間において対象オブジェクトの概念やスタイルを学ぶ。
筆者らは,(1)テキスト変換のない3Dオブジェクトを生成するオフザシェルフイメージアダプタを用いて,深度,ポーズ,テキストなどの条件を制御し,(2)深度条件付きウォームアップ戦略により3D一貫性を向上する手法を提案する。
- 参考スコア(独自算出の注目度): 2.4622211579286133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the impressive generative capabilities of diffusion models have been demonstrated, producing images with remarkable fidelity. Particularly, existing methods for the 3D object generation tasks, which is one of the fastest-growing segments in computer vision, pre-dominantly use text-to-image diffusion models with textual inversion which train a pseudo text prompt to describe the given image. In practice, various text-to-image generative models employ textual inversion to learn concepts or styles of target object in the pseudo text prompt embedding space, thereby generating sophisticated outputs. However, textual inversion requires additional training time and lacks control ability. To tackle this issues, we propose two innovative methods: (1) using an off-the-shelf image adapter that generates 3D objects without textual inversion, offering enhanced control over conditions such as depth, pose, and text. (2) a depth conditioned warmup strategy to enhance 3D consistency. In experimental results, ours show qualitatively and quantitatively comparable performance and improved 3D consistency to the existing text-inversion-based alternatives. Furthermore, we conduct a user study to assess (i) how well results match the input image and (ii) whether 3D consistency is maintained. User study results show that our model outperforms the alternatives, validating the effectiveness of our approaches. Our code is available at GitHub repository:https://github.com/Seooooooogi/Control3D_IP/
- Abstract(参考訳): 近年,拡散モデルの印象的な生成能力が実証され,画像の忠実度が著しく向上した。
特に、コンピュータビジョンにおいて急速に成長している3Dオブジェクト生成タスクの既存の手法では、テキストから画像への拡散モデルが優先的に使われており、擬似テキストが与えられた画像を記述するように訓練されている。
実際には、様々なテキスト・画像生成モデルはテキスト・インバージョンを使用して、擬似テキスト・プロンプト埋め込み空間における対象対象の概念やスタイルを学習し、洗練された出力を生成する。
しかし、テキストの反転は追加のトレーニング時間を必要とし、制御能力に欠ける。
この問題に対処するために,本研究では,(1)テキストの反転を伴わずに3Dオブジェクトを生成するオフザシェルフイメージアダプタを用いて,奥行き,ポーズ,テキストなどの条件に対する制御を改良した2つの革新的な手法を提案する。
2)3次元整合性を高めるための深度条件付きウォームアップ戦略。
実験の結果,定性的かつ定量的に比較可能な性能を示し,既存のテキスト・インバージョン・ベースの代替品に対して3次元の整合性を改善した。
さらに,評価のためのユーザスタディも実施する。
(i)入力画像と結果がどの程度一致したか
(二)3次元の整合性を維持するか否か。
ユーザ調査の結果、我々のモデルは代替案よりも優れており、我々のアプローチの有効性が検証されている。
私たちのコードはGitHubリポジトリで入手可能です。
関連論文リスト
- Articulate3D: Zero-Shot Text-Driven 3D Object Posing [38.75075284385844]
本稿では,言語制御による3Dアセットの提示を目的とした,トレーニング不要なArticulate3Dを提案する。
我々は、入力画像に条件付けされたターゲット画像とテキスト命令を作成するために、強力な画像生成装置を変更する。
次に、マルチビューポーズ最適化ステップを通じて、メッシュをターゲットイメージに合わせる。
論文 参考訳(メタデータ) (2025-08-26T17:59:17Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。