Fugu-MT 論文翻訳(概要): Doubly Abductive Counterfactual Inference for Text-based Image Editing

論文の概要: Doubly Abductive Counterfactual Inference for Text-based Image Editing

arxiv url: http://arxiv.org/abs/2403.02981v2
Date: Tue, 26 Mar 2024 02:39:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 21:44:06.939161
Title: Doubly Abductive Counterfactual Inference for Text-based Image Editing
Title（参考訳）: テキストベース画像編集における2つの帰納的逆推定法
Authors: Xue Song, Jiequan Cui, Hanwang Zhang, Jingjing Chen, Richang Hong, Yu-Gang Jiang,
Abstract要約: 本稿では,1つの画像のテキストベースの画像編集(TBIE)について,反事実推論を用いて検討する。本稿では,DAC(Dububly Abductive Counterfactual Inference framework)を提案する。我々のDACは編集性と忠実さのトレードオフをうまく達成しています。
参考スコア（独自算出の注目度）: 130.46583155383735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study text-based image editing (TBIE) of a single image by counterfactual inference because it is an elegant formulation to precisely address the requirement: the edited image should retain the fidelity of the original one. Through the lens of the formulation, we find that the crux of TBIE is that existing techniques hardly achieve a good trade-off between editability and fidelity, mainly due to the overfitting of the single-image fine-tuning. To this end, we propose a Doubly Abductive Counterfactual inference framework (DAC). We first parameterize an exogenous variable as a UNet LoRA, whose abduction can encode all the image details. Second, we abduct another exogenous variable parameterized by a text encoder LoRA, which recovers the lost editability caused by the overfitted first abduction. Thanks to the second abduction, which exclusively encodes the visual transition from post-edit to pre-edit, its inversion -- subtracting the LoRA -- effectively reverts pre-edit back to post-edit, thereby accomplishing the edit. Through extensive experiments, our DAC achieves a good trade-off between editability and fidelity. Thus, we can support a wide spectrum of user editing intents, including addition, removal, manipulation, replacement, style transfer, and facial change, which are extensively validated in both qualitative and quantitative evaluations. Codes are in https://github.com/xuesong39/DAC.
Abstract（参考訳）: 本稿では,テキストベースの画像編集(TBIE)について,その要求に正確に対処するためのエレガントな定式化であるため,反実的推論により検討する。定式化のレンズを通して、TBIEの要点は、既存の技術が編集性と忠実性の間の良好なトレードオフを達成できないことである。そこで本稿では,DAC(Doubly Abductive Counterfactual Inference framework)を提案する。まず、外因性変数をUNet LoRAとしてパラメータ化し、すべての画像の詳細をオークションでエンコードする。第2に、テキストエンコーダLoRAによってパラメータ化された別の外因性変数を退避させ、これは、過度に適合した第1の退避による、失われた編集性を取り戻す。後編集から前編集への視覚的移行を排他的にエンコードした第2の誘拐のおかげで、その反転 -- LoRAを減じる -- は事実上、前編集を後編集に戻し、編集を完了させる。我々のDACは広範な実験を通じて、編集可能性と忠実さのトレードオフを実現している。したがって, 付加, 削除, 操作, 交換, スタイルの移動, 顔の変化など, ユーザ編集の意図を幅広くサポートすることができ, 質的, 定量的評価の両面で広く検証されている。コードはhttps://github.com/xuesong39/DACにある。

関連論文リスト

EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文参考訳（メタデータ） (2025-10-23T05:06:24Z)
Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。 VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。 1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文参考訳（メタデータ） (2025-08-21T17:59:32Z)
Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文参考訳（メタデータ） (2025-04-03T17:59:58Z)
Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文参考訳（メタデータ） (2025-03-31T09:46:56Z)
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image Editing [43.082008983889956]
拡散モデルに基づくほとんどのメソッドは、編集の第一段階としてDDIM Inversionを使用する。そこで本研究では,Dual-Schedule Inversionと呼ばれる新しいインバージョンとサンプリング手法を提案する。また、Dual-Schedule Inversionとユーザフレンドリーな画像編集のための異なる編集手法を適応的に組み合わせる分類器を設計する。
論文参考訳（メタデータ） (2024-12-15T11:04:06Z)
CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。 CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文参考訳（メタデータ） (2024-08-22T14:12:20Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。 InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文参考訳（メタデータ） (2023-12-07T18:58:27Z)
Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文参考訳（メタデータ） (2023-09-19T12:05:26Z)
Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文参考訳（メタデータ） (2023-02-05T14:30:22Z)
Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文参考訳（メタデータ） (2022-07-17T10:34:58Z)
High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文参考訳（メタデータ） (2021-09-14T11:23:48Z)
From Continuity to Editability: Inverting GANs with Consecutive Images [37.16137384683823]
既存の GAN の逆変換法は、逆符号が高忠実度再構成を達成できるか、編集能力を維持することができるというパラドックスに固定されている。本稿では,この逆転過程に連続した画像を導入することで,このパラドックスを解消する。本手法は,ビデオベースGAN変換の最初のサポートを提供し,連続画像からの教師なしセマンティックトランスファーの興味深い応用を提供する。
論文参考訳（メタデータ） (2021-07-29T08:19:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。