論文の概要: Doubly Abductive Counterfactual Inference for Text-based Image Editing
- arxiv url: http://arxiv.org/abs/2403.02981v1
- Date: Tue, 5 Mar 2024 13:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:40:49.956672
- Title: Doubly Abductive Counterfactual Inference for Text-based Image Editing
- Title(参考訳): テキストベース画像編集のための二重帰納的偽物推論
- Authors: Xue Song, Jiequan Cui, Hanwang Zhang, Jingjing Chen, Richang Hong,
Yu-Gang Jiang
- Abstract要約: 本稿では,1つの画像のテキストベースの画像編集(TBIE)について,反事実推論を用いて検討する。
本稿では,DAC(Dububly Abductive Counterfactual Inference framework)を提案する。
我々のDACは編集性と忠実さのトレードオフをうまく達成しています。
- 参考スコア(独自算出の注目度): 138.24365925614094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study text-based image editing (TBIE) of a single image by counterfactual
inference because it is an elegant formulation to precisely address the
requirement: the edited image should retain the fidelity of the original one.
Through the lens of the formulation, we find that the crux of TBIE is that
existing techniques hardly achieve a good trade-off between editability and
fidelity, mainly due to the overfitting of the single-image fine-tuning. To
this end, we propose a Doubly Abductive Counterfactual inference framework
(DAC). We first parameterize an exogenous variable as a UNet LoRA, whose
abduction can encode all the image details. Second, we abduct another exogenous
variable parameterized by a text encoder LoRA, which recovers the lost
editability caused by the overfitted first abduction. Thanks to the second
abduction, which exclusively encodes the visual transition from post-edit to
pre-edit, its inversion -- subtracting the LoRA -- effectively reverts pre-edit
back to post-edit, thereby accomplishing the edit. Through extensive
experiments, our DAC achieves a good trade-off between editability and
fidelity. Thus, we can support a wide spectrum of user editing intents,
including addition, removal, manipulation, replacement, style transfer, and
facial change, which are extensively validated in both qualitative and
quantitative evaluations. Codes are in https://github.com/xuesong39/DAC.
- Abstract(参考訳): 本稿では,テキストベースの画像編集(TBIE)を,その要求に正確に対処するためのエレガントな定式化であるため,反実的推論により検討する。
定式化のレンズを通して、tbieの欠点は、既存の技術が編集性と忠実性の間の良いトレードオフをほとんど達成できないことである。
そこで本稿では,DAC(Doubly Abductive Counterfactual Inference framework)を提案する。
まず、外因性変数をUNet LoRAとしてパラメータ化し、すべての画像の詳細を推論する。
第2に、テキストエンコーダLoRAによってパラメータ化された別の外因性変数を退避させ、過度に適合した第1の退避による編集性を取り戻す。
ポストエディットからプレエディットへの視覚遷移を独占的にエンコードする第2のアブダクションのおかげで、その反転 -- loraを減算する -- は、事実上、プレエディットをポストエディットに戻す。
我々のDACは広範な実験を通じて、編集可能性と忠実さのトレードオフを実現している。
これにより,質的および定量的評価において広範囲に検証される追加,削除,操作,置換,スタイル転送,顔変化など,幅広いユーザ編集インテントをサポートすることができる。
コードはhttps://github.com/xuesong39/DACにある。
関連論文リスト
- CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。
CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。
本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文 参考訳(メタデータ) (2024-08-22T14:12:20Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。
生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。
また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文 参考訳(メタデータ) (2022-07-17T10:34:58Z) - High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。
低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。
高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:23:48Z) - From Continuity to Editability: Inverting GANs with Consecutive Images [37.16137384683823]
既存の GAN の逆変換法は、逆符号が高忠実度再構成を達成できるか、編集能力を維持することができるというパラドックスに固定されている。
本稿では,この逆転過程に連続した画像を導入することで,このパラドックスを解消する。
本手法は,ビデオベースGAN変換の最初のサポートを提供し,連続画像からの教師なしセマンティックトランスファーの興味深い応用を提供する。
論文 参考訳(メタデータ) (2021-07-29T08:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。