論文の概要: Efficient Multimodal Dataset Distillation via Generative Models
- arxiv url: http://arxiv.org/abs/2509.15472v2
- Date: Thu, 25 Sep 2025 22:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.667621
- Title: Efficient Multimodal Dataset Distillation via Generative Models
- Title(参考訳): 生成モデルによる効率的なマルチモーダルデータセット蒸留
- Authors: Zhenghao Zhao, Haoxuan Wang, Junyi Wu, Yuzhang Shang, Gaowen Liu, Yan Yan,
- Abstract要約: 本稿では,効率的なマルチモーダルデータセット蒸留のための生成蒸留法であるEDGEを紹介する。
具体的には、生成モデルを用いてマルチモーダルデータセットを蒸留する2つの重要な課題を特定する。
両方向のコントラスト損失と多様性損失を有する新しい生成モデルトレーニングワークフローを提案する。
提案手法はFlickr30K,COCO,CC3Mのデータセットを用いて評価し,既存の手法と比較して優れた性能と効率性を示す。
- 参考スコア(独自算出の注目度): 37.60051495186203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation aims to synthesize a small dataset from a large dataset, enabling the model trained on it to perform well on the original dataset. With the blooming of large language models and multimodal large language models, the importance of multimodal datasets, particularly image-text datasets, has grown significantly. However, existing multimodal dataset distillation methods are constrained by the Matching Training Trajectories algorithm, which significantly increases the computing resource requirement, and takes days to process the distillation. In this work, we introduce EDGE, a generative distillation method for efficient multimodal dataset distillation. Specifically, we identify two key challenges of distilling multimodal datasets with generative models: 1) The lack of correlation between generated images and captions. 2) The lack of diversity among generated samples. To address the aforementioned issues, we propose a novel generative model training workflow with a bi-directional contrastive loss and a diversity loss. Furthermore, we propose a caption synthesis strategy to further improve text-to-image retrieval performance by introducing more text information. Our method is evaluated on Flickr30K, COCO, and CC3M datasets, demonstrating superior performance and efficiency compared to existing approaches. Notably, our method achieves results 18x faster than the state-of-the-art method.
- Abstract(参考訳): データセットの蒸留は、大規模なデータセットから小さなデータセットを合成することを目的としており、トレーニングされたモデルが元のデータセットでうまく機能することを可能にしている。
大規模言語モデルやマルチモーダルな大規模言語モデルの普及に伴い,多モーダルデータセット,特に画像テキストデータセットの重要性は大きく向上している。
しかし、既存のマルチモーダルデータセット蒸留法はマッチング訓練軌道アルゴリズムによって制約されており、これは演算資源の要求を大幅に増加させ、蒸留処理に数日を要する。
本研究では,効率的な多モードデータセット蒸留のための生成蒸留法であるEDGEを紹介する。
具体的には、生成モデルを用いてマルチモーダルデータセットを蒸留する2つの重要な課題を特定する。
1) 生成された画像とキャプションの相関関係の欠如。
2) 生成サンプル間の多様性の欠如。
上記の課題に対処するため,両方向のコントラスト損失と多様性損失を有する新しいモデル学習ワークフローを提案する。
さらに,より多くのテキスト情報を導入することにより,テキスト間検索性能をさらに向上するキャプション合成手法を提案する。
提案手法はFlickr30K,COCO,CC3Mのデータセットを用いて評価し,既存の手法と比較して優れた性能と効率性を示す。
特に,本手法は最先端手法よりも18倍高速な結果が得られる。
関連論文リスト
- Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization [34.53986517177061]
本稿では, 既存の拡散式蒸留法に対する新しい枠組みを提案し, 生成ではなく拡散モデルを用いて選択する。
提案手法は,入力画像とテキストプロンプトに基づいて拡散モデルから発生するノイズを予測し,各ペアの損失を算出する。
この合理化フレームワークは単一段階の蒸留プロセスを実現するとともに,我々の手法が様々なメトリクスにわたって最先端の手法より優れていることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-12-13T08:34:46Z) - Low-Rank Similarity Mining for Multimodal Dataset Distillation [50.45577048854653]
マルチモーダルデータセット蒸留におけるローランド類似性マイニング(LoRS)を提案する。
LoRSは、画像とテキストのペアと基底真理類似性行列を蒸留し、低ランクの分解を効率とスケーラビリティに活用する。
論文 参考訳(メタデータ) (2024-06-06T07:05:20Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Vision-Language Dataset Distillation [26.886260846439612]
トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。
重要な課題は、ビジョン言語データセットが独立したクラスのセットを持っていないことだ。
提案手法は, コントラスト式で画像とテキストのペアを共同蒸留する。
論文 参考訳(メタデータ) (2023-08-15T03:22:40Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。