論文の概要: Visual Disentangled Diffusion Autoencoders: Scalable Counterfactual Generation for Foundation Models
- arxiv url: http://arxiv.org/abs/2601.21851v1
- Date: Thu, 29 Jan 2026 15:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.934332
- Title: Visual Disentangled Diffusion Autoencoders: Scalable Counterfactual Generation for Foundation Models
- Title(参考訳): Visual Disentangled Diffusion Autoencoders: 基礎モデルのためのスケーラブルな対実生成
- Authors: Sidney Bender, Marco Morik,
- Abstract要約: ファンデーションモデルは、堅牢なゼロショット機能にもかかわらず、急激な相関と「クリーバーハンズ」戦略に弱いままである。
本研究では,凍結基盤モデルと解離辞書学習を統合した新しいフレームワークであるVisual Disentangled Diffusion Autoencoders (DiDAE)を提案する。
DiDAEはまず、不整合辞書の解釈可能な不整合方向への基礎モデルの埋め込みを編集し、拡散オートエンコーダを介してデコードする。
- 参考スコア(独自算出の注目度): 1.3535770763481902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models, despite their robust zero-shot capabilities, remain vulnerable to spurious correlations and 'Clever Hans' strategies. Existing mitigation methods often rely on unavailable group labels or computationally expensive gradient-based adversarial optimization. To address these limitations, we propose Visual Disentangled Diffusion Autoencoders (DiDAE), a novel framework integrating frozen foundation models with disentangled dictionary learning for efficient, gradient-free counterfactual generation directly for the foundation model. DiDAE first edits foundation model embeddings in interpretable disentangled directions of the disentangled dictionary and then decodes them via a diffusion autoencoder. This allows the generation of multiple diverse, disentangled counterfactuals for each factual, much faster than existing baselines, which generate single entangled counterfactuals. When paired with Counterfactual Knowledge Distillation, DiDAE-CFKD achieves state-of-the-art performance in mitigating shortcut learning, improving downstream performance on unbalanced datasets.
- Abstract(参考訳): ファンデーションモデルは、堅牢なゼロショット機能にもかかわらず、急激な相関と「クリーバーハンズ」戦略に弱いままである。
既存の緩和法は、しばしば利用できないグループラベルや計算コストの高い勾配ベースの逆最適化に依存している。
これらの制約に対処するため, 凍結基礎モデルと解凍辞書学習を統合した新しいフレームワークである Visual Disentangled Diffusion Autoencoders (DiDAE) を提案する。
DiDAEはまず、不整合辞書の解釈可能な不整合方向への基礎モデルの埋め込みを編集し、拡散オートエンコーダを介してデコードする。
これにより、既存のベースラインよりもはるかに高速で、単一の絡み合ったカウンターファクトを生成する。
Counterfactual Knowledge Distillationと組み合わせると、DiDAE-CFKDはショートカット学習を緩和し、バランスの取れていないデータセットの下流のパフォーマンスを改善する。
関連論文リスト
- Deep Leakage with Generative Flow Matching Denoiser [54.05993847488204]
再建プロセスに先立って生成フローマッチング(FM)を組み込んだ新しい深部リーク攻撃(DL)を導入する。
当社のアプローチは、ピクセルレベル、知覚的、特徴に基づく類似度測定において、最先端の攻撃よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-21T14:51:01Z) - Deferred Commitment Decoding for Diffusion Language Models with Confidence-Aware Sliding Windows [33.361153168706444]
トレーニング不要なデコード戦略として,Dederred Commitment Decoding (DCD)を提案する。
DCDは、マスクされたトークンの上に信頼性を意識したスライディングウィンドウを保持しており、十分な文脈証拠が得られるまで、高い不確実性トークンを延期しながら、早期に低不確実性トークンを解決している。
実験の結果、DCDは固定ブロックベースの拡散法に比べて平均時間で1.39%向上し、最も顕著な改善は9.0%に達した。
論文 参考訳(メタデータ) (2026-01-05T12:57:33Z) - Context-Aware Initialization for Reducing Generative Path Length in Diffusion Language Models [0.0]
DLLM(Large Language Models)は完全な並列トークン復号を可能にするが、推論時には実用的でないことが多い。
既存の加速法の多くは、改良された解法やサンプリング戦略を通じて、この生成軌道をより効率的にトラバースすることに焦点を当てている。
本稿では,軽量補助モデルから拡散初期化に事前条件付き事前条件を注入する学習自由インタフェースを提案する。
インジェクションされたプリエントは不完全であり、アンマスクのみのデコーディングは早期に過剰にコミットできるため、プリエントベースのリメイキング機構を事前の懐疑論の一形態として導入する。
論文 参考訳(メタデータ) (2025-12-22T03:45:04Z) - A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation [15.689880312464004]
拡散モデルは、異常な生成品質と制御性のために、現代の生成AIの基盤となっている。
Diffusion Cachingは、トレーニングのない、アーキテクチャに依存しない、効率的な推論パラダイムを提供する。
計算機能レベルのクロスステップの再利用と層間スケジューリングを有効にすることにより、モデルパラメータを変更することなく削減できる。
論文 参考訳(メタデータ) (2025-10-22T16:46:05Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。