論文の概要: Omnimodal Dataset Distillation via High-order Proxy Alignment
- arxiv url: http://arxiv.org/abs/2604.10666v1
- Date: Sun, 12 Apr 2026 14:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.161938
- Title: Omnimodal Dataset Distillation via High-order Proxy Alignment
- Title(参考訳): 高次プロキシアライメントによるOmnimodal Dataset Distillation
- Authors: Yuxuan Gao, Xiaohao Liu, Xiaobo Xia, Tongliang Liu,
- Abstract要約: 本稿では,プロキシ構造を用いて高次クロスモーダルアライメントをキャプチャするHoPAを提案する。
本手法は,一対のモダリティモデリングの複雑さを回避し,不均一なモダリティをまたいだスケーラブルなプロキシ解析を可能にする。
- 参考スコア(独自算出の注目度): 59.74134776126595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation compresses large-scale datasets into compact synthetic sets while preserving training performance, but existing methods are largely restricted to single-modal or bimodal settings. Extending dataset distillation to scenarios involving more than two modalities, i.e., Omnimodal Dataset Distillation, remains underexplored and challenging due to increased heterogeneity and complex cross-modal interactions. In this work, we identify the key determinant that bounds the endpoint discrepancy in the omnimodal setting, which is exacerbated with an increasing number of modalities. To this end, we propose HoPA, a unified method that captures high-order cross-modal alignments via a compact proxy, which is compatible with trajectory matching as well. By abstracting omnimodal alignment with a shared similarity structure, our method avoids the combinatorial complexity of pairwise modality modeling and enables scalable joint distillation across heterogeneous modalities. Theoretical analysis from the spectral perspective reveals the rationality of our proposed method against bimodal dataset distillation techniques. Extensive experiments on various benchmarks demonstrate that the proposed method achieves superior compression-performance trade-offs compared to existing competitors. The source code will be publicly released.
- Abstract(参考訳): データセット蒸留は、訓練性能を維持しながら、大規模なデータセットをコンパクトな合成セットに圧縮するが、既存の方法は、主にシングルモーダルまたはバイモーダルの設定に制限されている。
Omnimodal Dataset Distillation(Omnimodal Dataset Distillation)と呼ばれる2つ以上のモダリティを含むシナリオへのデータセットの蒸留の拡張は、不均一性の増加と複雑なクロスモーダル相互作用のため、まだ未解明であり挑戦的である。
本研究では,全方位における終端不一致を限定する鍵決定因子を同定し,モダリティの増大とともに悪化する。
そこで本研究では,高次クロスモーダルアライメントをコンパクトなプロキシでキャプチャするHoPAを提案する。
本手法は, 相似構造を持つ全方位アライメントを抽象化することにより, 対方向のモダリティモデリングの組合せ複雑性を回避し, 不均一なモダリティにまたがるスケーラブルなジョイント蒸留を可能にする。
スペクトルの観点からの理論的分析は,提案手法のバイモーダルデータセット蒸留法に対する合理性を明らかにする。
様々なベンチマーク実験により,提案手法は既存の競合相手よりも優れた圧縮性能のトレードオフを実現することが示された。
ソースコードは公開される予定だ。
関連論文リスト
- AlignMamba-2: Enhancing Multimodal Fusion and Sentiment Analysis with Modality-Aware Mamba [56.52470564147458]
マルチモーダル融合と感情分析のための効率的かつ効率的なフレームワークである textbfAlignMamba-2 を提案する。
提案手法では, 最適輸送距離と最大平均離散度の両方を用いてモデルを正規化する2つのアライメント戦略を導入する。
さらに重要なことは、モダリティに特有かつモダリティに偏ったエキスパートによるMixture-of-Expertsアーキテクチャを採用したModality-Aware Mamba層を設計することです。
論文 参考訳(メタデータ) (2026-03-19T03:47:21Z) - IMS3: Breaking Distributional Aggregation in Diffusion-Based Dataset Distillation [41.83834685276882]
近年,拡散型データセット蒸留法は,拡散モデルの強い生成能力を活用し,多様で構造的に一貫した試料を生成することにより,大きな期待を抱いている。
Inversion-Matching (IM)は、インバージョン誘導による微調整プロセスを導入し、軌道をインバージョンと整列させ、分布範囲を広げ、多様性を高める。
Selective Subgroup Sampling(S3)は、クラス間分離性を改善するためのトレーニング不要なサンプリングメカニズムである。
論文 参考訳(メタデータ) (2026-03-14T14:15:03Z) - Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - Decoupled Audio-Visual Dataset Distillation [44.63243875072762]
本稿では,事前学習に基づくオーディオ-視覚蒸留フレームワークであるDAVDDを提案する。
これらの課題に対処するため、プレトレーニングベースで分離されたオーディオ視覚蒸留フレームワークであるDAVDDを提案する。
論文 参考訳(メタデータ) (2025-11-22T02:36:50Z) - Hyperbolic Dataset Distillation [44.63243875072762]
本稿では,新しいハイパーボリックデータセット蒸留法を提案する。
ハイパーボリック空間におけるプルーニングは, モデル性能を維持するため, 蒸留コアセットの20%しか必要としないことがわかった。
これは、双曲空間をデータセット蒸留プロセスに組み込む最初の研究である。
論文 参考訳(メタデータ) (2025-05-30T14:14:00Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。