論文の概要: Multimodal Distribution Matching for Vision-Language Dataset Distillation
- arxiv url: http://arxiv.org/abs/2605.23482v1
- Date: Fri, 22 May 2026 10:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.318326
- Title: Multimodal Distribution Matching for Vision-Language Dataset Distillation
- Title(参考訳): ビジョンランゲージデータセット蒸留のためのマルチモーダル分布マッチング
- Authors: Jongoh Jeong, Hoyong Kwon, Minseok Kim, Kuk-Jin Yoon,
- Abstract要約: マルチモーダル分散マッチング(Multimodal Distribution Matching)は、効率的かつ一般化可能なマルチモーダル蒸留のための幾何学的枠組みである。
MDMはデータ、モデル、損失レベルで補完的なコンポーネントを統合する。
マルチモーダルなセマンティクスを保存し、蒸留コストを大幅に削減し、建築全体にわたって頑丈な、コンパクトな合成セットを生成する。
- 参考スコア(独自算出の注目度): 50.411341509805936
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dataset distillation compresses large training sets into compact synthetic datasets while preserving downstream performance. As modern systems increasingly operate on paired vision-language inputs, multimodal distillation must preserve representation quality and cross-modal alignment under tight compute and memory budgets, yet prior methods often require heavy computes and overlook their correlations. To address this, we present Multimodal Distribution Matching (MDM), a geometry-aware framework for efficient and generalizable multimodal distillation. Specifically, MDM integrates complementary components at the data, model, and loss levels. At the data level, it initializes synthetic image-text pairs by sampling from clusters in the joint embedding space. At the model level, it forms a mixed teacher by interpolating independently fine-tuned models in weight space according to their angular deviation from the pretrained anchor. At the loss level, it matches joint distributions on the unit hypersphere using a geometry-aware matching objective that exploits the joint features in the cross-modal agreement and discrepancy directions along with symmetric contrastive learning. Across image-text retrieval benchmarks with cross-architecture evaluation, MDM yields compact synthetic sets that preserve multimodal semantics, substantially reduce distillation cost, and remain robust across architectures.
- Abstract(参考訳): データセット蒸留は、下流のパフォーマンスを維持しながら、大規模なトレーニングセットをコンパクトな合成データセットに圧縮する。
現代のシステムはペアの視覚言語入力でますます運用されるので、マルチモーダル蒸留は、厳密な計算とメモリ予算の下で表現品質とクロスモーダルアライメントを保たなければならない。
そこで本研究では, 効率的かつ一般化可能な多モード蒸留のための幾何対応フレームワークであるMDMを提案する。
具体的には、MDMはデータ、モデル、損失レベルの相補的なコンポーネントを統合する。
データレベルでは、結合埋め込み空間内のクラスタからサンプリングすることで、合成画像とテキストのペアを初期化する。
モデルレベルでは、事前訓練されたアンカーからの角偏差に応じて、重量空間で独立に微調整されたモデルを補間することで混合教師を形成する。
損失レベルでは、対称的なコントラスト学習とともに、クロスモーダルな合意と不一致方向の関節特徴を利用する幾何認識マッチングの目的を用いて、単位超球面上の関節分布と一致させる。
マルチモーダルなセマンティクスを保存し、蒸留コストを大幅に削減し、アーキテクチャ全体にわたって堅牢な構成を保ちながら、クロスアーキテクチャ評価を伴う画像テキスト検索ベンチマーク全体にわたって、MDMはコンパクトな合成セットを生成する。
関連論文リスト
- Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation [109.13471554184554]
最適輸送(OT)距離最小化問題としてデータセット蒸留を再構成する。
OTは分布マッチングのための幾何学的に忠実なフレームワークを提供する。
提案手法は, 常に最先端の手法を効率よく上回っている。
論文 参考訳(メタデータ) (2025-11-29T04:04:05Z) - ImagebindDC: Compressing Multi-modal Data with Imagebind-based Condensation [12.924585390383085]
ImageBindDCは、ImageBindの統一された機能空間内で動作する、新しいデータ凝縮フレームワークである。
我々のアプローチは、強力な特徴関数(CF)損失を利用することで、従来の分散マッチングを超えています。
実験では、ImageBindDC:のNYU-v2データセットの有効性を強調している。
論文 参考訳(メタデータ) (2025-11-11T13:55:46Z) - Hyperbolic Dataset Distillation [44.63243875072762]
本稿では,新しいハイパーボリックデータセット蒸留法を提案する。
ハイパーボリック空間におけるプルーニングは, モデル性能を維持するため, 蒸留コアセットの20%しか必要としないことがわかった。
これは、双曲空間をデータセット蒸留プロセスに組み込む最初の研究である。
論文 参考訳(メタデータ) (2025-05-30T14:14:00Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Contrastive Learning-Based Spectral Knowledge Distillation for
Multi-Modality and Missing Modality Scenarios in Semantic Segmentation [2.491548070992611]
CSK-Netと呼ばれる新しいマルチモーダル融合手法を提案する。
対照的な学習に基づくスペクトル知識蒸留技術を用いる。
実験の結果、CSK-Netはマルチモーダルタスクや欠落したモダリティにおいて最先端のモデルを上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-04T10:27:09Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。