論文の概要: VersaGen: Unleashing Versatile Visual Control for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2412.11594v1
- Date: Mon, 16 Dec 2024 09:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:56.321301
- Title: VersaGen: Unleashing Versatile Visual Control for Text-to-Image Synthesis
- Title(参考訳): VersaGen: テキストから画像への合成のための可視性制御
- Authors: Zhipeng Chen, Lan Yang, Yonggang Qi, Honggang Zhang, Kaiyue Pang, Ke Li, Yi-Zhe Song,
- Abstract要約: 本稿では,テキスト・トゥ・イメージ(T2I)合成における多目的視覚制御を可能にする生成AIエージェントVersaGenを提案する。
我々は,凍結したT2Iモデルに適応器を訓練し,テキスト支配拡散プロセスに視覚情報を適応させる。
- 参考スコア(独自算出の注目度): 59.12590059101254
- License:
- Abstract: Despite the rapid advancements in text-to-image (T2I) synthesis, enabling precise visual control remains a significant challenge. Existing works attempted to incorporate multi-facet controls (text and sketch), aiming to enhance the creative control over generated images. However, our pilot study reveals that the expressive power of humans far surpasses the capabilities of current methods. Users desire a more versatile approach that can accommodate their diverse creative intents, ranging from controlling individual subjects to manipulating the entire scene composition. We present VersaGen, a generative AI agent that enables versatile visual control in T2I synthesis. VersaGen admits four types of visual controls: i) single visual subject; ii) multiple visual subjects; iii) scene background; iv) any combination of the three above or merely no control at all. We train an adaptor upon a frozen T2I model to accommodate the visual information into the text-dominated diffusion process. We introduce three optimization strategies during the inference phase of VersaGen to improve generation results and enhance user experience. Comprehensive experiments on COCO and Sketchy validate the effectiveness and flexibility of VersaGen, as evidenced by both qualitative and quantitative results.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)合成の急速な進歩にもかかわらず、正確な視覚制御を可能にすることは大きな課題である。
既存の作業は、生成された画像に対する創造的な制御を強化することを目的として、マルチフェイスコントロール(テキストとスケッチ)を組み込もうとした。
しかし、我々のパイロット研究は、人間の表現力が現在の方法の能力をはるかに上回っていることを明らかにしている。
ユーザーは、個別の主題の制御からシーン全体の操作まで、多様な創造的意図に適応できる、より汎用的なアプローチを望んでいる。
本稿では,T2I合成における多目的視覚制御を可能にする生成型AIエージェントVersaGenを提案する。
VersaGenは4種類のビジュアルコントロールを認めています。
一 単眼の被写体
二 複数の視覚被写体
iii)シーンの背景
四 上の三つの組み合わせ又はまったく制御しないもの
我々は,凍結したT2Iモデルに適応器を訓練し,テキスト支配拡散プロセスに視覚情報を適応させる。
本稿では,VersaGenの推論フェーズにおいて,生成結果の改善とユーザエクスペリエンスの向上のために3つの最適化戦略を導入する。
COCOとSketchyに関する総合的な実験は、定性的および定量的な結果の両方で証明されているように、VersaGenの有効性と柔軟性を検証する。
関連論文リスト
- AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - FSViewFusion: Few-Shots View Generation of Novel Objects [75.81872204650807]
本研究では,3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルを提案する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
ビューの概念は、ビューが学習された元のオブジェクトの識別に関係なく、アンタングル化され、新しいオブジェクトに転送可能であることを確認します。
論文 参考訳(メタデータ) (2024-03-11T02:59:30Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。