論文の概要: Multi-Modal Dataset Distillation in the Wild
- arxiv url: http://arxiv.org/abs/2506.01586v1
- Date: Mon, 02 Jun 2025 12:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.299381
- Title: Multi-Modal Dataset Distillation in the Wild
- Title(参考訳): 野生におけるマルチモーダルデータセット蒸留
- Authors: Zhuohang Dang, Minnan Luo, Chengyou Jia, Hangwei Qian, Xiaojun Chang, Ivor W. Tsang,
- Abstract要約: そこで我々は,マルチモーダル・データセット蒸留法(MDW)を提案し,ノイズの多いマルチモーダル・データセットをコンパクトなクリーン・データセットに蒸留し,効果的かつ効率的なモデルトレーニングを行う。
具体的には、MDWは蒸留中の学習可能な微粒な対応を導入し、蒸留されたデータを適応的に最適化し、対応識別領域を強調する。
MDWの理論的および経験的有効性は、様々な圧縮比で従来の手法を15%以上上回る、顕著なスケーラビリティで検証されている。
- 参考スコア(独自算出の注目度): 75.64263877043615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multi-modal models have shown remarkable versatility in real-world applications. However, their rapid development encounters two critical data challenges. First, the training process requires large-scale datasets, leading to substantial storage and computational costs. Second, these data are typically web-crawled with inevitable noise, i.e., partially mismatched pairs, severely degrading model performance. To these ends, we propose Multi-modal dataset Distillation in the Wild, i.e., MDW, the first framework to distill noisy multi-modal datasets into compact clean ones for effective and efficient model training. Specifically, MDW introduces learnable fine-grained correspondences during distillation and adaptively optimizes distilled data to emphasize correspondence-discriminative regions, thereby enhancing distilled data's information density and efficacy. Moreover, to capture robust cross-modal correspondence prior knowledge from real data, MDW proposes dual-track collaborative learning to avoid the risky data noise, alleviating information loss with certifiable noise tolerance. Extensive experiments validate MDW's theoretical and empirical efficacy with remarkable scalability, surpassing prior methods by over 15% across various compression ratios, highlighting its appealing practicality for applications with diverse efficacy and resource needs.
- Abstract(参考訳): 最近のマルチモーダルモデルは、現実世界の応用において顕著な汎用性を示している。
しかし、彼らの急速な開発は2つの重要なデータ課題に直面している。
まず、トレーニングプロセスには大規模なデータセットが必要です。
第二に、これらのデータは通常、避けられないノイズ、すなわち部分的にミスマッチしたペア、非常に劣化したモデルパフォーマンスでウェブクロールされる。
これらの目的のために、我々は、マルチモーダルデータセット蒸留(MDW)、すなわち、ノイズの多いマルチモーダルデータセットをコンパクトなクリーンなものに蒸留し、効果的で効率的なモデルトレーニングを行うための最初のフレームワークを提案する。
具体的には、MDWは、蒸留中の学習可能なきめ細かい対応を導入し、蒸留したデータを適応的に最適化し、対応する識別領域を強調することにより、蒸留したデータの情報密度と有効性を向上する。
さらに、実データから事前の堅牢なクロスモーダル対応を捉えるために、MDWは、リスクの高いデータノイズを避けるために、二トラック協調学習を提案し、情報損失を証明可能な耐雑音性で軽減する。
MDWの理論的および経験的有効性は目覚ましいスケーラビリティで検証され、様々な圧縮比で従来の手法を15%以上上回り、多様な有効性とリソースニーズを持つアプリケーションにアピールする実用性を強調した。
関連論文リスト
- DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture [69.58440626023541]
拡散モデル(DM)は、様々な領域にまたがる例外的な生成能力を示す。
DMはますます大量のデータを消費している。
既存のDMをデータソースとして使用して,新しいDMをアーキテクチャでトレーニングする,という新しいシナリオを提案する。
論文 参考訳(メタデータ) (2024-09-05T14:12:22Z) - MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。
ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。
大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文 参考訳(メタデータ) (2024-08-05T14:16:54Z) - Semantic-Aware Representation of Multi-Modal Data for Data Ingress: A Literature Review [1.8590097948961688]
LLM(Large Language Models)のような生成AIは、テキスト、画像、オーディオ、ビデオなどのマルチモーダルデータを処理するために広く採用されている。
このデータを効率的に管理することは、データ量が2倍にならないため、業界倍の課題となっている。
本研究では,モノモーダル,マルチモーダル,クロスモーダルデータから埋め込みを抽出するセマンティック・アウェア技術に着目した。
論文 参考訳(メタデータ) (2024-07-17T09:49:11Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Dynamic Multimodal Information Bottleneck for Multimodality
Classification [26.65073424377933]
本稿では,頑健な融合特徴表現を実現するための動的マルチモーダル情報ボトルネックフレームワークを提案する。
具体的には、情報ボトルネックモジュールは、融合機能におけるタスク関連情報やノイズをフィルタリングするのに役立ちます。
提案手法は最先端の手法を超越し, 大規模ノイズチャネルが存在する場合, 性能を維持できる唯一の手法である。
論文 参考訳(メタデータ) (2023-11-02T08:34:08Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。