論文の概要: Causal-Adapter: Taming Text-to-Image Diffusion for Faithful Counterfactual Generation
- arxiv url: http://arxiv.org/abs/2509.24798v2
- Date: Thu, 02 Oct 2025 15:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.145916
- Title: Causal-Adapter: Taming Text-to-Image Diffusion for Faithful Counterfactual Generation
- Title(参考訳): Causal-Adapter: 忠実な逆生成のためのテキストと画像の拡散処理
- Authors: Lei Tong, Zhihua Liu, Chaochao Lu, Dino Oglic, Tom Diethe, Philip Teare, Sotirios A. Tsaftaris, Chen Jin,
- Abstract要約: Causal-Adapterは、凍結したテキストから画像への拡散バックボーンを、反ファクト画像生成に適応させるモジュラーフレームワークである。
本手法は目的属性に対する因果的介入を可能にし,画像のコアアイデンティティを変更することなく因果的依存者に対する影響を一貫して伝播させる。
- 参考スコア(独自算出の注目度): 25.445546753640915
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Causal-Adapter, a modular framework that adapts frozen text-to-image diffusion backbones for counterfactual image generation. Our method enables causal interventions on target attributes, consistently propagating their effects to causal dependents without altering the core identity of the image. In contrast to prior approaches that rely on prompt engineering without explicit causal structure, Causal-Adapter leverages structural causal modeling augmented with two attribute regularization strategies: prompt-aligned injection, which aligns causal attributes with textual embeddings for precise semantic control, and a conditioned token contrastive loss to disentangle attribute factors and reduce spurious correlations. Causal-Adapter achieves state-of-the-art performance on both synthetic and real-world datasets, with up to 91% MAE reduction on Pendulum for accurate attribute control and 87% FID reduction on ADNI for high-fidelity MRI image generation. These results show that our approach enables robust, generalizable counterfactual editing with faithful attribute modification and strong identity preservation.
- Abstract(参考訳): Causal-Adapterは,凍結したテキストと画像の拡散バックボーンを適応させて,反ファクト画像生成を行うモジュラーフレームワークである。
本手法は目的属性に対する因果的介入を可能にし,画像のコアアイデンティティを変更することなく因果的依存者に対する影響を一貫して伝播させる。
Causal-Adapterは、明示的な因果構造を持たない素早いエンジニアリングに依存する従来のアプローチとは対照的に、2つの属性正則化戦略で強化された構造因果モデリングを利用する。
Causal-Adapterは、精度の高い属性制御のためのPendulumの最大91%のMAE削減と、高忠実度MRI画像生成のためのADNIの87%のFID削減という、合成および実世界のデータセットの最先端のパフォーマンスを実現している。
これらの結果から,本手法は忠実な属性修正と強いアイデンティティ保存を併用して,堅牢で一般化可能な反ファクト編集を可能にすることが示唆された。
関連論文リスト
- Active Adversarial Noise Suppression for Image Forgery Localization [56.98050814363447]
本稿では、敵騒音の攻撃効果を抑制するために、防御的摂動を発生させる敵騒音抑制モジュール(ANSM)を提案する。
我々の知る限りでは、画像フォージェリローカライゼーションタスクにおける敵対的防御の報告としてはこれが初めてである。
論文 参考訳(メタデータ) (2025-06-15T14:53:27Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - Magnet: We Never Know How Text-to-Image Diffusion Models Work, Until We Learn How Vision-Language Models Function [13.588643982359413]
属性理解におけるCLIPテキストエンコーダの限界を批判的に検討し,それが拡散モデルに与える影響について検討する。
属性結合問題に対処するための新しいトレーニング不要アプローチである textbf magnet を提案する。
論文 参考訳(メタデータ) (2024-09-30T05:36:24Z) - Mitigating attribute amplification in counterfactual image generation [18.032123360046644]
因果生成モデリングは医療画像への関心が高まっている。
ほとんどの研究は、見栄えのよい偽物画像を作ることに重点を置いている。
属性増幅は,反実的トレーニングプロセスにおけるハードラベルの使用によって引き起こされることを示す。
論文 参考訳(メタデータ) (2024-03-14T14:14:47Z) - Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。
本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。
ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-07T20:55:39Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Attribute-Centric Compositional Text-to-Image Generation [45.12516226662346]
ACTIGは属性中心のコンポジションテキスト・ツー・イメージ生成フレームワークである。
属性中心の特徴強化と,新しい画像のないトレーニング手法を提案する。
CelebA-HQおよびCUBデータセット上で、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2023-01-04T03:03:08Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。