論文の概要: EVLF: Early Vision-Language Fusion for Generative Dataset Distillation
- arxiv url: http://arxiv.org/abs/2603.07476v1
- Date: Sun, 08 Mar 2026 05:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.624077
- Title: EVLF: Early Vision-Language Fusion for Generative Dataset Distillation
- Title(参考訳): EVLF: 生成データセット蒸留のための早期ビジョンランゲージ融合
- Authors: Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang,
- Abstract要約: 本稿では,エンコーダと生成バックボーンの遷移において,テキストと視覚の埋め込みを整列するEarly Vision-Language Fusion(EVLF)法を提案する。
EVLFはプラグアンドプレイであり、任意の拡散ベースのデータセット蒸留パイプラインにエンコーダで容易に統合できる。
EVLFはセマンティックに忠実で視覚的に一貫性のある合成データを生成し、様々な設定で下流の分類精度が一貫した改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 6.913041518668593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) aims to synthesize compact training sets that enable models to achieve high accuracy with significantly fewer samples. Recent diffusion-based DD methods commonly introduce semantic guidance through late-stage cross-attention, where textual prompts tend to dominate the generative process. Although this strategy enforces label relevance, it diminishes the contribution of visual latents, resulting in over-corrected samples that mirror prompt patterns rather than reflecting intrinsic visual features. To solve this problem, we introduce an Early Vision-Language Fusion (EVLF) method that aligns textual and visual embeddings at the transition between the encoder and the generative backbone. By incorporating a lightweight cross-attention module at this transition, the early representations simultaneously encode local textures and global semantic directions across the denoising process. Importantly, EVLF is plug-and-play and can be easily integrated into any diffusion-based dataset distillation pipeline with an encoder. It works across different denoiser architectures and sampling schedules without any task-specific modifications. Extensive experiments demonstrate that EVLF generates semantically faithful and visually coherent synthetic data, yielding consistent improvements in downstream classification accuracy across varied settings. Source code is available at https://github.com/wenqi-cai297/earlyfusion-for-dd/.
- Abstract(参考訳): データセット蒸留(DD)は、モデルがはるかに少ないサンプルで高い精度を達成できるような、コンパクトなトレーニングセットを合成することを目的としている。
近年の拡散型DD法は、テキストプロンプトが生成過程を支配する傾向にある後期のクロスアテンションを通した意味指導を一般的に導入している。
この戦略はラベルの関連性を強制するが、視覚的潜伏剤の寄与を減少させ、本質的な視覚的特徴を反映するのではなく、パターンを反映する過度に修正されたサンプルをもたらす。
この問題を解決するために、エンコーダと生成バックボーンの遷移でテキストと視覚の埋め込みを整列するEarly Vision-Language Fusion(EVLF)法を提案する。
この遷移で軽量なクロスアテンションモジュールを組み込むことで、初期表現は局所的なテクスチャと、認知プロセス全体にわたるグローバルなセマンティックな方向を同時にエンコードする。
重要なのは、EVLFはプラグアンドプレイであり、任意の拡散ベースのデータセット蒸留パイプラインにエンコーダで容易に統合できることだ。
タスク固有の変更なしに、さまざまなデノイザアーキテクチャで動作し、スケジュールをサンプリングする。
大規模な実験により、EVLFはセマンティックに忠実で視覚的に一貫性のある合成データを生成し、様々な設定で下流の分類精度が一貫した改善をもたらすことが示された。
ソースコードはhttps://github.com/wenqi-cai297/earlyfusion-for-dd/で入手できる。
関連論文リスト
- Visual Disentangled Diffusion Autoencoders: Scalable Counterfactual Generation for Foundation Models [1.3535770763481902]
ファンデーションモデルは、堅牢なゼロショット機能にもかかわらず、急激な相関と「クリーバーハンズ」戦略に弱いままである。
本研究では,凍結基盤モデルと解離辞書学習を統合した新しいフレームワークであるVisual Disentangled Diffusion Autoencoders (DiDAE)を提案する。
DiDAEはまず、不整合辞書の解釈可能な不整合方向への基礎モデルの埋め込みを編集し、拡散オートエンコーダを介してデコードする。
論文 参考訳(メタデータ) (2026-01-29T15:25:37Z) - Context-Aware Initialization for Reducing Generative Path Length in Diffusion Language Models [0.0]
DLLM(Large Language Models)は完全な並列トークン復号を可能にするが、推論時には実用的でないことが多い。
既存の加速法の多くは、改良された解法やサンプリング戦略を通じて、この生成軌道をより効率的にトラバースすることに焦点を当てている。
本稿では,軽量補助モデルから拡散初期化に事前条件付き事前条件を注入する学習自由インタフェースを提案する。
インジェクションされたプリエントは不完全であり、アンマスクのみのデコーディングは早期に過剰にコミットできるため、プリエントベースのリメイキング機構を事前の懐疑論の一形態として導入する。
論文 参考訳(メタデータ) (2025-12-22T03:45:04Z) - Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion [59.30874672131483]
潜在拡散モデル (LDMs) は本質的に粗大から細い生成過程に従う。
近年の進歩は、LDMをさらに強化するために、事前訓練された視覚エンコーダのセマンティック先行を統合化している。
本稿では,セマンティックファースト拡散(Semantic-First Diffusion,SFD)を提案する。
論文 参考訳(メタデータ) (2025-12-04T15:57:27Z) - EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics [12.818622596576775]
EDITSは、画像データ内の暗黙のテキストセマンティクスを利用して、拡張蒸留を実現する新しいフレームワークである。
本稿では, 画像データ中の暗黙のテキスト意味を活かし, 拡張蒸留を実現する新しいフレームワークであるEDITSを提案する。
論文 参考訳(メタデータ) (2025-09-17T09:48:39Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - LATTE: Latent Trajectory Embedding for Diffusion-Generated Image Detection [13.576997219135992]
LATent Trajectory Embeddingは、複数の認知ステップにまたがる遅延埋め込みの進化をモデル化する新しいアプローチである。
GenImage、Chameleon、Diffusion Forensicsといったいくつかのベンチマークの実験は、LATTEが優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2025-07-03T12:53:47Z) - CONCORD: Concept-Informed Diffusion for Dataset Distillation [29.092857460373278]
本研究では,データセット蒸留のためのconcept-Informed Diffusion (CONCORD)を提案する。
提案手法は, 蒸留画像生成の可制御性と解釈性の両方を著しく向上させる。
画像Net-1Kとそのサブセットの最先端性能を達成し,CONCORDの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-23T20:39:23Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。