論文の概要: Text-Image Conditioned 3D Generation
- arxiv url: http://arxiv.org/abs/2603.21295v1
- Date: Sun, 22 Mar 2026 15:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.337252
- Title: Text-Image Conditioned 3D Generation
- Title(参考訳): テキスト画像による3次元生成
- Authors: Jiazhong Cen, Jiemin Fang, Sikuang Li, Guanjun Wu, Chen Yang, Taoran Yi, Zanwei Zhou, Zhikuan Bao, Lingxi Xie, Wei Shen, Qi Tian,
- Abstract要約: TIGONは、イメージとテキスト条件のバックボーンと軽量なクロスモーダル融合を備えた、最小限のデュアルブランチベースラインである。
我々の診断研究は、テキストと画像条件の単純な融合でさえ、単一モダリティモデルよりも優れていることを示している。
大規模な実験により、テキスト画像の条件付けは単一モダリティ法よりも一貫して改善されることが示された。
- 参考スコア(独自算出の注目度): 71.98375600100856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality 3D assets are essential for VR/AR, industrial design, and entertainment, motivating growing interest in generative models that create 3D content from user prompts. Most existing 3D generators, however, rely on a single conditioning modality: image-conditioned models achieve high visual fidelity by exploiting pixel-aligned cues but suffer from viewpoint bias when the input view is limited or ambiguous, while text-conditioned models provide broad semantic guidance yet lack low-level visual detail. This limits how users can express intent and raises a natural question: can these two modalities be combined for more flexible and faithful 3D generation? Our diagnostic study shows that even simple late fusion of text- and image-conditioned predictions outperforms single-modality models, revealing strong cross-modal complementarity. We therefore formalize Text-Image Conditioned 3D Generation, which requires joint reasoning over a visual exemplar and a textual specification. To address this task, we introduce TIGON, a minimalist dual-branch baseline with separate image- and text-conditioned backbones and lightweight cross-modal fusion. Extensive experiments show that text-image conditioning consistently improves over single-modality methods, highlighting complementary vision-language guidance as a promising direction for future 3D generation research. Project page: https://jumpat.github.io/tigon-page
- Abstract(参考訳): 高品質な3DアセットはVR/AR、工業デザイン、エンターテイメントに不可欠であり、ユーザープロンプトから3Dコンテンツを生成する生成モデルへの関心が高まっている。
しかし、既存の多くの3Dジェネレータは、単一の条件付けのモダリティに依存している: 画像条件付きモデルは、ピクセル配列のキューを利用して高い視覚的忠実性を達成するが、入力ビューが限定的または曖昧である場合、視点バイアスに悩まされる一方、テキスト条件付きモデルは、広義のセマンティックガイダンスを提供するが、低レベルな視覚的詳細を欠いている。
この2つのモダリティは、より柔軟で忠実な3D生成のために組み合わせられるのか?
我々の診断研究は、テキストと画像条件の単純な融合でさえ単一モダリティモデルよりも優れており、強い相互補完性を示していることを示している。
そこで我々は,視覚的見本とテキストの仕様に関する共同推論を必要とするテキスト画像条件付き3D生成を定式化する。
この課題に対処するために、TIGONは、画像とテキスト条件の異なるバックボーンと軽量なクロスモーダル融合を備えた、最小限のデュアルブランチベースラインである。
広汎な実験により、テキスト画像の条件付けは単一モダリティ法よりも一貫して改善され、将来の3D世代研究の有望な方向性として補完的な視覚言語指導が強調される。
プロジェクトページ: https://jumpat.github.io/tigon-page
関連論文リスト
- Controllable 3D Object Generation with Single Image Prompt [2.4622211579286133]
3Dオブジェクト生成タスクは、コンピュータビジョンで最も急速に成長しているセグメントの1つである。
テキスト・ツー・イメージ生成モデルは、テキスト・インバージョンを使用して、擬似テキストの埋め込み空間において対象オブジェクトの概念やスタイルを学ぶ。
筆者らは,(1)テキスト変換のない3Dオブジェクトを生成するオフザシェルフイメージアダプタを用いて,深度,ポーズ,テキストなどの条件を制御し,(2)深度条件付きウォームアップ戦略により3D一貫性を向上する手法を提案する。
論文 参考訳(メタデータ) (2025-11-27T08:03:56Z) - Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - DreamBooth3D: Subject-Driven Text-to-3D Generation [43.14506066034495]
そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。
これらの手法を鼻で組み合わせると、被験者の入力視点に過度に適合するパーソナライズされたテキスト・ツー・イメージ・モデルにより、満足のいく主題固有の3Dアセットが得られないことがわかった。
提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。
論文 参考訳(メタデータ) (2023-03-23T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。