論文の概要: Instilling Multi-round Thinking to Text-guided Image Generation
- arxiv url: http://arxiv.org/abs/2401.08472v2
- Date: Sat, 9 Mar 2024 15:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:40:33.022849
- Title: Instilling Multi-round Thinking to Text-guided Image Generation
- Title(参考訳): テキスト誘導画像生成のためのマルチラウンド思考
- Authors: Lidong Zeng, Zhedong Zheng, Yinwei Wei, Tat-seng Chua
- Abstract要約: シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
- 参考スコア(独自算出の注目度): 72.2032630115201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper delves into the text-guided image editing task, focusing on
modifying a reference image according to user-specified textual feedback to
embody specific attributes. Despite recent advancements, a persistent challenge
remains that the single-round generation often overlooks crucial details,
particularly in the realm of fine-grained changes like shoes or sleeves. This
issue compounds over multiple rounds of interaction, severely limiting
customization quality. In an attempt to address this challenge, we introduce a
new self-supervised regularization, \ie, multi-round regularization, which is
compatible with existing methods. Specifically, the multi-round regularization
encourages the model to maintain consistency across different modification
orders. It builds upon the observation that the modification order generally
should not affect the final result. Different from traditional one-round
generation, the mechanism underpinning the proposed method is the error
amplification of initially minor inaccuracies in capturing intricate details.
Qualitative and quantitative experiments affirm that the proposed method
achieves high-fidelity editing quality, especially the local modification, in
both single-round and multiple-round generation, while also showcasing robust
generalization to irregular text inputs. The effectiveness of our semantic
alignment with textual feedback is further substantiated by the retrieval
improvements on FahisonIQ and Fashion200k.
- Abstract(参考訳): 本稿では,特定の属性を具現化するために,ユーザが指定したテキストフィードバックに従って参照画像の修正に焦点をあてたテキストガイド画像編集タスクについて述べる。
近年の進歩にもかかわらず、特に靴や袖のような細かな変化の領域では、単発世代が重要な詳細を見過ごすことがしばしばある。
この問題は、カスタマイズの質を厳しく制限した複数のインタラクションの複合物である。
この課題に対処すべく、既存の手法と互換性のある新しい自己教師付き正則化 \ie, multi-round regularizationを導入する。
特に、マルチラウンド規則化は、モデルを異なる修正順序で一貫性を維持することを奨励する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
従来の1ラウンド生成と異なり、提案手法の基盤となるメカニズムは、複雑な詳細を捉える際の初期の小さな不正確さの誤り増幅である。
定性的かつ定量的な実験により,本手法は高忠実度編集品質,特に局所的な修正を単ラウンドおよび複数ラウンドで達成し,不規則なテキスト入力に対する堅牢な一般化を示す。
テキストフィードバックによるセマンティックアライメントの有効性は、FhisonIQとFashion200kの検索改善によってさらに裏付けられる。
関連論文リスト
- LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing [20.861672583434718]
LIPEは、2段階のフレームワークであり、同じ主題の画像の限られたセットを利用して生成モデルをカスタマイズするように設計されている。
LIPEは、同じ対象の限られた画像集合を用いて生成モデルをカスタマイズする2段階のフレームワークであり、その後、非厳密な画像編集のために学習済みのモデルを用いる。
論文 参考訳(メタデータ) (2024-06-25T02:56:16Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。
新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。
質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文 参考訳(メタデータ) (2024-03-20T12:40:32Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Variational Bayesian Framework for Advanced Image Generation with
Domain-Related Variables [29.827191184889898]
先進条件生成問題に対する統一ベイズ的枠組みを提案する。
本稿では,複数の画像翻訳および編集作業が可能な変分ベイズ画像翻訳ネットワーク(VBITN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T09:47:23Z) - Enhancing Detail Preservation for Customized Text-to-Image Generation: A
Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。
提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-23T01:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。