論文の概要: Instilling Multi-round Thinking to Text-guided Image Generation
- arxiv url: http://arxiv.org/abs/2401.08472v1
- Date: Tue, 16 Jan 2024 16:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:59:04.197111
- Title: Instilling Multi-round Thinking to Text-guided Image Generation
- Title(参考訳): テキスト誘導画像生成のためのマルチラウンド思考
- Authors: Lidong Zeng, Zhedong Zheng, Yinwei Wei, Tat-seng Chua
- Abstract要約: 既存のフレームワーク,すなわちマルチラウンド正規化に,新たな自己監督型正規化を導入する。
提案手法は,複数のラウンドの後に細かな細部を捕捉できないことが,大きな相違をもたらす問題に対処する。
本手法をテキスト誘導検索データセットに適用することにより,テキストとのセマンティックアライメントに拡張する。
- 参考スコア(独自算出の注目度): 72.2032630115201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the text-guided image generation task. Our focus lies
in the modification of a reference image, given user text feedback, to imbue it
with specific desired properties. Despite recent strides in this field, a
persistent challenge remains that single-round optimization often overlooks
crucial details, particularly in the realm of fine-grained changes like shoes
or sleeves. This misalignment accumulation significantly hampers multi-round
customization during interaction. In an attempt to address this challenge, we
introduce a new self-supervised regularization into the existing framework,
i.e., multi-round regularization. It builds upon the observation that the
modification order does not affect the final result. As the name suggests, the
multi-round regularization encourages the model to maintain consistency across
different modification orders. Specifically, our proposed approach addresses
the issue where an initial failure to capture fine-grained details leads to
substantial discrepancies after multiple rounds, as opposed to traditional
one-round learning. Both qualitative and quantitative experiments show the
proposed method achieves high-fidelity generation quality over the text-guided
generation task, especially the local modification. Furthermore, we extend the
evaluation to semantic alignment with text by applying our method to
text-guided retrieval datasets, such as FahisonIQ, where it demonstrates
competitive performance.
- Abstract(参考訳): 本稿では,テキスト誘導画像生成タスクについて検討する。
私たちの焦点は、ユーザのテキストフィードバックを与えられた参照イメージを、特定の望ましいプロパティで埋め合わせることにあります。
この分野での最近の進歩にもかかわらず、特に靴やスリーブのようなきめ細かい変更の領域において、シングルラウンドの最適化が重要な詳細を見過ごすことがしばしばある。
このミスアライメントは相互作用中の複数ラウンドのカスタマイズを著しく妨げている。
この課題に対処するために、我々は既存のフレームワーク、すなわちマルチラウンド正規化に新たな自己監督型正規化を導入する。
修正順序が最終結果に影響を与えないという観察に基づいている。
名前が示すように、マルチラウンドの正規化は、モデルを異なる修正順序間で一貫性を維持することを奨励する。
特に,本提案手法は,従来のワンラウンド学習とは対照的に,難解な細部を捉えることが,複数ラウンド後の相当な相違をもたらす問題に対処する。
質的かつ定量的な実験により,提案手法はテキスト誘導型生成タスク,特に局所的修正よりも高い忠実度生成品質を達成することが示された。
さらに,本手法をFhisonIQなどのテキスト誘導検索データセットに適用することにより,テキストとのセマンティックアライメントに拡張し,競合性能を示す。
関連論文リスト
- Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing [20.861672583434718]
LIPEは、2段階のフレームワークであり、同じ主題の画像の限られたセットを利用して生成モデルをカスタマイズするように設計されている。
LIPEは、同じ対象の限られた画像集合を用いて生成モデルをカスタマイズする2段階のフレームワークであり、その後、非厳密な画像編集のために学習済みのモデルを用いる。
論文 参考訳(メタデータ) (2024-06-25T02:56:16Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。
新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。
質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文 参考訳(メタデータ) (2024-03-20T12:40:32Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Variational Bayesian Framework for Advanced Image Generation with
Domain-Related Variables [29.827191184889898]
先進条件生成問題に対する統一ベイズ的枠組みを提案する。
本稿では,複数の画像翻訳および編集作業が可能な変分ベイズ画像翻訳ネットワーク(VBITN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T09:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。