Fugu-MT 論文翻訳(概要): Doubly Abductive Counterfactual Inference for Text-based Image Editing

論文の概要: Doubly Abductive Counterfactual Inference for Text-based Image Editing

arxiv url: http://arxiv.org/abs/2403.02981v1
Date: Tue, 5 Mar 2024 13:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 14:40:49.956672
Title: Doubly Abductive Counterfactual Inference for Text-based Image Editing
Title（参考訳）: テキストベース画像編集のための二重帰納的偽物推論
Authors: Xue Song, Jiequan Cui, Hanwang Zhang, Jingjing Chen, Richang Hong, Yu-Gang Jiang
Abstract要約: 本稿では,1つの画像のテキストベースの画像編集(TBIE)について,反事実推論を用いて検討する。本稿では,DAC(Dububly Abductive Counterfactual Inference framework)を提案する。我々のDACは編集性と忠実さのトレードオフをうまく達成しています。
参考スコア（独自算出の注目度）: 138.24365925614094
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study text-based image editing (TBIE) of a single image by counterfactual inference because it is an elegant formulation to precisely address the requirement: the edited image should retain the fidelity of the original one. Through the lens of the formulation, we find that the crux of TBIE is that existing techniques hardly achieve a good trade-off between editability and fidelity, mainly due to the overfitting of the single-image fine-tuning. To this end, we propose a Doubly Abductive Counterfactual inference framework (DAC). We first parameterize an exogenous variable as a UNet LoRA, whose abduction can encode all the image details. Second, we abduct another exogenous variable parameterized by a text encoder LoRA, which recovers the lost editability caused by the overfitted first abduction. Thanks to the second abduction, which exclusively encodes the visual transition from post-edit to pre-edit, its inversion -- subtracting the LoRA -- effectively reverts pre-edit back to post-edit, thereby accomplishing the edit. Through extensive experiments, our DAC achieves a good trade-off between editability and fidelity. Thus, we can support a wide spectrum of user editing intents, including addition, removal, manipulation, replacement, style transfer, and facial change, which are extensively validated in both qualitative and quantitative evaluations. Codes are in https://github.com/xuesong39/DAC.
Abstract（参考訳）: 本稿では,テキストベースの画像編集(TBIE)を,その要求に正確に対処するためのエレガントな定式化であるため,反実的推論により検討する。定式化のレンズを通して、tbieの欠点は、既存の技術が編集性と忠実性の間の良いトレードオフをほとんど達成できないことである。そこで本稿では,DAC(Doubly Abductive Counterfactual Inference framework)を提案する。まず、外因性変数をUNet LoRAとしてパラメータ化し、すべての画像の詳細を推論する。第2に、テキストエンコーダLoRAによってパラメータ化された別の外因性変数を退避させ、過度に適合した第1の退避による編集性を取り戻す。ポストエディットからプレエディットへの視覚遷移を独占的にエンコードする第2のアブダクションのおかげで、その反転 -- loraを減算する -- は、事実上、プレエディットをポストエディットに戻す。我々のDACは広範な実験を通じて、編集可能性と忠実さのトレードオフを実現している。これにより,質的および定量的評価において広範囲に検証される追加,削除,操作,置換,スタイル転送,顔変化など,幅広いユーザ編集インテントをサポートすることができる。コードはhttps://github.com/xuesong39/DACにある。

関連論文リスト

Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文参考訳（メタデータ） (2025-04-03T17:59:58Z)
Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文参考訳（メタデータ） (2025-03-31T09:46:56Z)
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image Editing [43.082008983889956]
拡散モデルに基づくほとんどのメソッドは、編集の第一段階としてDDIM Inversionを使用する。そこで本研究では,Dual-Schedule Inversionと呼ばれる新しいインバージョンとサンプリング手法を提案する。また、Dual-Schedule Inversionとユーザフレンドリーな画像編集のための異なる編集手法を適応的に組み合わせる分類器を設計する。
論文参考訳（メタデータ） (2024-12-15T11:04:06Z)
CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。 CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文参考訳（メタデータ） (2024-08-22T14:12:20Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。 InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文参考訳（メタデータ） (2023-12-07T18:58:27Z)
Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文参考訳（メタデータ） (2023-09-19T12:05:26Z)
Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文参考訳（メタデータ） (2023-02-05T14:30:22Z)
Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文参考訳（メタデータ） (2022-07-17T10:34:58Z)
High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文参考訳（メタデータ） (2021-09-14T11:23:48Z)
From Continuity to Editability: Inverting GANs with Consecutive Images [37.16137384683823]
既存の GAN の逆変換法は、逆符号が高忠実度再構成を達成できるか、編集能力を維持することができるというパラドックスに固定されている。本稿では,この逆転過程に連続した画像を導入することで,このパラドックスを解消する。本手法は,ビデオベースGAN変換の最初のサポートを提供し,連続画像からの教師なしセマンティックトランスファーの興味深い応用を提供する。
論文参考訳（メタデータ） (2021-07-29T08:19:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。