論文の概要: FlexGen: Flexible Multi-View Generation from Text and Image Inputs
- arxiv url: http://arxiv.org/abs/2410.10745v1
- Date: Mon, 14 Oct 2024 17:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:55:21.205116
- Title: FlexGen: Flexible Multi-View Generation from Text and Image Inputs
- Title(参考訳): FlexGen: テキストと画像入力からフレキシブルなマルチビュー生成
- Authors: Xinli Xu, Wenhang Ge, Jiantao Lin, Jiawei Feng, Lie Xu, HanFeng Zhao, Shunsi Zhang, Ying-Cong Chen,
- Abstract要約: 制御可能で一貫したマルチビュー画像を生成するために設計されたフレキシブルなフレームワークであるFlexGenを紹介します。
我々は、GPT-4Vの強い推論能力を利用して、3D対応のテキストアノテーションを生成する。
この研究は、ゲーム開発、アニメーション、バーチャルリアリティーを含む、迅速で柔軟な3Dコンテンツ作成を必要とする分野に重大な影響を及ぼす。
- 参考スコア(独自算出の注目度): 15.247406806666856
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we introduce FlexGen, a flexible framework designed to generate controllable and consistent multi-view images, conditioned on a single-view image, or a text prompt, or both. FlexGen tackles the challenges of controllable multi-view synthesis through additional conditioning on 3D-aware text annotations. We utilize the strong reasoning capabilities of GPT-4V to generate 3D-aware text annotations. By analyzing four orthogonal views of an object arranged as tiled multi-view images, GPT-4V can produce text annotations that include 3D-aware information with spatial relationship. By integrating the control signal with proposed adaptive dual-control module, our model can generate multi-view images that correspond to the specified text. FlexGen supports multiple controllable capabilities, allowing users to modify text prompts to generate reasonable and corresponding unseen parts. Additionally, users can influence attributes such as appearance and material properties, including metallic and roughness. Extensive experiments demonstrate that our approach offers enhanced multiple controllability, marking a significant advancement over existing multi-view diffusion models. This work has substantial implications for fields requiring rapid and flexible 3D content creation, including game development, animation, and virtual reality. Project page: https://xxu068.github.io/flexgen.github.io/.
- Abstract(参考訳): この作業でFlexGenを紹介します。これは、コントロール可能で一貫したマルチビュー画像を生成するように設計されたフレキシブルなフレームワークで、単一のビューイメージやテキストプロンプトに条件付けされています。
FlexGenは、3D対応のテキストアノテーションの条件付けを通じて、コントロール可能なマルチビュー合成の課題に取り組む。
我々は、GPT-4Vの強い推論能力を利用して、3D対応のテキストアノテーションを生成する。
タイル付き多視点画像として配置されたオブジェクトの4つの直交ビューを解析することにより、GPT-4Vは空間的関係を持つ3D認識情報を含むテキストアノテーションを生成することができる。
制御信号と適応的な二重制御モジュールを組み合わせることで、本モデルは指定されたテキストに対応する多視点画像を生成することができる。
FlexGenは複数のコントロール可能な機能をサポートしており、ユーザーはテキストプロンプトを変更して、合理的で対応する見えない部分を生成することができる。
さらに、ユーザは金属や粗さなど、外観や材料特性などの特性に影響を与えることができる。
広汎な実験により,本手法は,既存の多視点拡散モデルに対する顕著な進歩を示すとともに,多重制御性の向上を図っている。
この研究は、ゲーム開発、アニメーション、バーチャルリアリティーを含む、迅速で柔軟な3Dコンテンツ作成を必要とする分野に重大な影響を及ぼす。
プロジェクトページ: https://xxu068.github.io/flexgen.github.io/
関連論文リスト
- OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - COMOGen: A Controllable Text-to-3D Multi-object Generation Framework [22.05619100307402]
本稿では,テキストから3次元のマルチオブジェクト生成フレームワークであるCOMOGenを紹介する。
COMOGenは、レイアウトとマルチビュー事前知識の蒸留により、複数の3Dオブジェクトを同時に生成することを可能にする。
総合的な実験は、最先端の手法と比較して、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-01T02:50:38Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - Learning Continuous 3D Words for Text-to-Image Generation [44.210565557606465]
本稿では,画像中の複数の属性の微粒化制御をユーザに提供するアプローチを提案する。
本手法は,複数の連続した3Dワードとテキスト記述を同時に行うことで,画像生成を条件付けることができる。
論文 参考訳(メタデータ) (2024-02-13T18:34:10Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - TaleCrafter: Interactive Story Visualization with Multiple Characters [49.14122401339003]
本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。
複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。
システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
論文 参考訳(メタデータ) (2023-05-29T17:11:39Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。