論文の概要: Decoupled Audio-Visual Dataset Distillation
- arxiv url: http://arxiv.org/abs/2511.17890v1
- Date: Sat, 22 Nov 2025 02:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.498956
- Title: Decoupled Audio-Visual Dataset Distillation
- Title(参考訳): Decoupled Audio-Visual Dataset Distillation
- Authors: Wenyuan Li, Guang Li, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: 本稿では,事前学習に基づくオーディオ-視覚蒸留フレームワークであるDAVDDを提案する。
これらの課題に対処するため、プレトレーニングベースで分離されたオーディオ視覚蒸留フレームワークであるDAVDDを提案する。
- 参考スコア(独自算出の注目度): 44.63243875072762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Dataset Distillation aims to compress large-scale datasets into compact subsets while preserving the performance of the original data. However, conventional Distribution Matching (DM) methods struggle to capture intrinsic cross-modal alignment. Subsequent studies have attempted to introduce cross-modal matching, but two major challenges remain: (i) independently and randomly initialized encoders lead to inconsistent modality mapping spaces, increasing training difficulty; and (ii) direct interactions between modalities tend to damage modality-specific (private) information, thereby degrading the quality of the distilled data. To address these challenges, we propose DAVDD, a pretraining-based decoupled audio-visual distillation framework. DAVDD leverages a diverse pretrained bank to obtain stable modality features and uses a lightweight decoupler bank to disentangle them into common and private representations. To effectively preserve cross-modal structure, we further introduce Common Intermodal Matching together with a Sample-Distribution Joint Alignment strategy, ensuring that shared representations are aligned both at the sample level and the global distribution level. Meanwhile, private representations are entirely isolated from cross-modal interaction, safeguarding modality-specific cues throughout distillation. Extensive experiments across multiple benchmarks show that DAVDD achieves state-of-the-art results under all IPC settings, demonstrating the effectiveness of decoupled representation learning for high-quality audio-visual dataset distillation. Code will be released.
- Abstract(参考訳): Audio-Visual Dataset Distillationは、大規模なデータセットをコンパクトなサブセットに圧縮し、元のデータのパフォーマンスを維持することを目的としている。
しかし、従来の分散マッチング(DM)手法は、本質的なクロスモーダルアライメントを捉えるのに苦労する。
その後の研究はクロスモーダルマッチングの導入を試みたが、2つの大きな課題が残る。
(i)独立かつランダムに初期化されたエンコーダは、一貫性のないモダリティマッピング空間を導き、訓練の困難を増す。
(II) モダリティ間の直接的相互作用は、モダリティ固有の(プライベートな)情報を損なう傾向があり、それによって蒸留データの品質が低下する。
これらの課題に対処するため、プレトレーニングベースで分離されたオーディオ視覚蒸留フレームワークであるDAVDDを提案する。
DAVDDは、様々な事前訓練された銀行を活用して安定したモダリティ特性を取得し、軽量なデカップラーバンクを使用してそれらを共通およびプライベートな表現に分解する。
クロスモーダル構造を効果的に維持するため,サンプル・ディストリビューション・ジョイント・アライメント・ストラテジーとともに共通インターモーダルマッチングを導入し,共有表現がサンプルレベルとグローバル・ディストリビューションレベルの両方で整列していることを保証する。
一方、民間の表現は、蒸留を通してモダリティ固有の手がかりを保護し、クロスモーダル相互作用から完全に分離されている。
複数のベンチマークによる大規模な実験により,DAVDDはすべてのIPC設定下で最先端の結果を達成し,高品質なオーディオ-ビジュアルデータセット蒸留におけるデカップリング表現学習の有効性を示した。
コードはリリースされる。
関連論文リスト
- ImagebindDC: Compressing Multi-modal Data with Imagebind-based Condensation [12.924585390383085]
ImageBindDCは、ImageBindの統一された機能空間内で動作する、新しいデータ凝縮フレームワークである。
我々のアプローチは、強力な特徴関数(CF)損失を利用することで、従来の分散マッチングを超えています。
実験では、ImageBindDC:のNYU-v2データセットの有効性を強調している。
論文 参考訳(メタデータ) (2025-11-11T13:55:46Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。
共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。
提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文 参考訳(メタデータ) (2025-10-23T17:59:54Z) - Dual-granularity Sinkhorn Distillation for Enhanced Learning from Long-tailed Noisy Data [67.25796812343454]
ディープラーニングのための実世界のデータセットは、クラス不均衡とラベルノイズの共起的な課題にしばしば悩まされる。
蒸留と相補的な知見の統合により二重強靭性を高める新しいフレームワークであるD-SINKを提案する。
ベンチマークデータセットの実験では、D-SINKはロバスト性を大幅に向上し、長い尾のノイズデータから学習する際の強い経験的性能を達成することが示された。
論文 参考訳(メタデータ) (2025-10-09T13:05:27Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。