論文の概要: Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation
- arxiv url: http://arxiv.org/abs/2505.14705v1
- Date: Fri, 16 May 2025 03:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.633379
- Title: Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation
- Title(参考訳): モダリティ崩壊を超えて:マルチモーダルデータセット蒸留のための表現ブレンディング
- Authors: Xin Zhang, Ziruo Zhang, Jiawei Du, Zuozhu Liu, Joey Tianyi Zhou,
- Abstract要約: textbfRepBlendという新しいMDDフレームワークを導入し,表現ブレンディングによるモダル間監督を弱める。
Flickr-30K と MS-COCO の実験では、RepBlend は最先端のMDD メソッドよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 41.00894254469267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Dataset Distillation (MDD) seeks to condense large-scale image-text datasets into compact surrogates while retaining their effectiveness for cross-modal learning. Despite recent progress, existing MDD approaches often suffer from \textit{\textbf{Modality Collapse}}, characterized by over-concentrated intra-modal representations and enlarged distributional gap across modalities. In this paper, at the first time, we identify this issue as stemming from a fundamental conflict between the over-compression behavior inherent in dataset distillation and the cross-modal supervision imposed by contrastive objectives. To alleviate modality collapse, we introduce \textbf{RepBlend}, a novel MDD framework that weakens overdominant cross-modal supervision via representation blending, thereby significantly enhancing intra-modal diversity. Additionally, we observe that current MDD methods impose asymmetric supervision across modalities, resulting in biased optimization. To address this, we propose symmetric projection trajectory matching, which synchronizes the optimization dynamics using modality-specific projection heads, thereby promoting balanced supervision and enhancing cross-modal alignment. Experiments on Flickr-30K and MS-COCO show that RepBlend consistently outperforms prior state-of-the-art MDD methods, achieving significant gains in retrieval performance (e.g., +9.4 IR@10, +6.3 TR@10 under the 100-pair setting) and offering up to 6.7$\times$ distillation speedup.
- Abstract(参考訳): MDD(Multimodal Dataset Distillation)は、大規模な画像テキストデータセットをコンパクトなサロゲートに変換し、クロスモーダル学習の有効性を維持する。
近年の進歩にもかかわらず、既存のMDDアプローチは、過度に集中したモダリティ内表現と、モダリティ間の分散ギャップの拡大を特徴とする「textit{\textbf{Modality Collapse}}」に悩まされることが多い。
本稿では, データセット蒸留に固有の過剰圧縮挙動と, 対照的な目的によって課されるクロスモーダル・インスペクションとの根本的な矛盾から, この問題を初めて認識した。
モダリティの崩壊を緩和するために,表現ブレンディングによる過剰な相互監視を弱める新しいMDDフレームワークであるtextbf{RepBlend}を導入し,モダリティ内多様性を著しく向上させる。
さらに、現在のMDD法では、モダリティに対して非対称な監督を課し、最適化のバイアスが生じることを観察する。
そこで本研究では,モダリティ特異的な投影ヘッドを用いて最適化力学を同期させる対称射影軌道マッチングを提案し,バランスの取れた監督の促進とクロスモーダルアライメントの強化を図る。
Flickr-30KとMS-COCOの実験では、RepBlendは最先端のMDD法を一貫して上回り、検索性能(例: +9.4 IR@10, +6.3 TR@10)と最大6.7$\times$蒸留速度アップを実現している。
関連論文リスト
- Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective [15.239882327601016]
本稿では,因果的視点から視覚的モダリティバイアスを研究するMMEAの非現実的脱バイアスフレームワークCDMEAを提案する。
本研究の目的は,モデル予測に対する視覚的モダリティの直接的な因果効果を抑えつつ,視覚的モダリティとグラフ的モダリティを両立させることである。
論文 参考訳(メタデータ) (2025-04-28T03:48:23Z) - Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations [2.992602379681373]
マルチモーダル微調整により,OoDDの性能が向上することを示す。
本稿では,IDデータの画像とテキストの埋め込み距離を正規化することにより,モーダルアライメントを向上させる訓練目標を提案する。
論文 参考訳(メタデータ) (2025-03-24T16:00:21Z) - Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening [10.23957420290553]
本稿では,一段階の高品位パンシャーピングを実現するための最適輸送フローマッチングフレームワークを提案する。
OTFMフレームワークは、パンシャーピング制約の厳格な遵守を維持しつつ、シミュレーション不要なトレーニングとシングルステップ推論を可能にする。
論文 参考訳(メタデータ) (2025-03-19T08:10:49Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - BlindDiff: Empowering Degradation Modelling in Diffusion Models for Blind Image Super-Resolution [52.47005445345593]
BlindDiff は SISR のブラインド劣化に対処するための DM ベースのブラインドSR 手法である。
BlindDiffはMAPベースの最適化をDMにシームレスに統合する。
合成データセットと実世界のデータセットの両方の実験は、BlindDiffが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-03-15T11:21:34Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。