論文の概要: Learning Continuous 3D Words for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2402.08654v1
- Date: Tue, 13 Feb 2024 18:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:02:05.429499
- Title: Learning Continuous 3D Words for Text-to-Image Generation
- Title(参考訳): テキスト対画像生成のための連続3次元単語学習
- Authors: Ta-Ying Cheng, Matheus Gadelha, Thibault Groueix, Matthew Fisher,
Radomir Mech, Andrew Markham, Niki Trigoni
- Abstract要約: 本稿では,画像中の複数の属性の微粒化制御をユーザに提供するアプローチを提案する。
本手法は,複数の連続した3Dワードとテキスト記述を同時に行うことで,画像生成を条件付けることができる。
- 参考スコア(独自算出の注目度): 44.210565557606465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current controls over diffusion models (e.g., through text or ControlNet) for
image generation fall short in recognizing abstract, continuous attributes like
illumination direction or non-rigid shape change. In this paper, we present an
approach for allowing users of text-to-image models to have fine-grained
control of several attributes in an image. We do this by engineering special
sets of input tokens that can be transformed in a continuous manner -- we call
them Continuous 3D Words. These attributes can, for example, be represented as
sliders and applied jointly with text prompts for fine-grained control over
image generation. Given only a single mesh and a rendering engine, we show that
our approach can be adopted to provide continuous user control over several
3D-aware attributes, including time-of-day illumination, bird wing orientation,
dollyzoom effect, and object poses. Our method is capable of conditioning image
creation with multiple Continuous 3D Words and text descriptions simultaneously
while adding no overhead to the generative process. Project Page:
https://ttchengab.github.io/continuous_3d_words
- Abstract(参考訳): 画像生成のための拡散モデル(テキストやコントロールネットなど)に対する現在の制御は、照明方向や非剛体形状変化のような抽象的で連続的な属性を認識するのに不足している。
本稿では,テキスト対画像モデルのユーザが画像中の複数の属性のきめ細かな制御を行えるようにする手法を提案する。
これを、連続的な方法で変換できる入力トークンの特別なセットをエンジニアリングすることで実現します。
これらの属性は、例えば、スライダとして表現でき、画像生成をきめ細かい制御のためにテキストプロンプトと共同で適用することができる。
単一のメッシュとレンダリングエンジンのみを前提として,日中の照明,鳥の翼の向き,ドリーゾーム効果,オブジェクトのポーズなど,複数の3D認識属性に対する継続的なユーザ制御を実現するためのアプローチが提案されている。
本手法では,複数の連続3次元単語とテキスト記述を同時に条件付けし,生成プロセスにオーバーヘッドを加えることなく画像生成を行う。
プロジェクトページ: https://ttchengab.github.io/continuous_3d_words
関連論文リスト
- Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Text and Image Guided 3D Avatar Generation and Manipulation [0.0]
テキストや「若い顔」や「驚きの顔」といった画像に基づくプロンプトを用いて、モデルの形状とテクスチャの両方を操作できる新しい3D操作法を提案する。
提案手法は操作に5分しか必要とせず,提案手法の有効性を広範囲な結果と比較で実証する。
論文 参考訳(メタデータ) (2022-02-12T14:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。