論文の概要: Distilling Cross-Modal Knowledge via Feature Disentanglement
- arxiv url: http://arxiv.org/abs/2511.19887v1
- Date: Tue, 25 Nov 2025 03:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.261199
- Title: Distilling Cross-Modal Knowledge via Feature Disentanglement
- Title(参考訳): 特徴分散によるクロスモーダル知識の蒸留
- Authors: Junhong Liu, Yuan Zhang, Tao Huang, Wenchao Xu, Renyu Yang,
- Abstract要約: 本稿では,周波数分離型クロスモーダル知識蒸留法を提案する。
その結果,低周波特性は異なるモードで高い整合性を示すのに対し,高周波特性はクロスモーダルな類似性が極めて低いことがわかった。
本手法は従来のKD法と最先端のクロスモーダルKD法を大幅に上回る。
- 参考スコア(独自算出の注目度): 19.981536371167852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has proven highly effective for compressing large models and enhancing the performance of smaller ones. However, its effectiveness diminishes in cross-modal scenarios, such as vision-to-language distillation, where inconsistencies in representation across modalities lead to difficult knowledge transfer. To address this challenge, we propose frequency-decoupled cross-modal knowledge distillation, a method designed to decouple and balance knowledge transfer across modalities by leveraging frequency-domain features. We observed that low-frequency features exhibit high consistency across different modalities, whereas high-frequency features demonstrate extremely low cross-modal similarity. Accordingly, we apply distinct losses to these features: enforcing strong alignment in the low-frequency domain and introducing relaxed alignment for high-frequency features. We also propose a scale consistency loss to address distributional shifts between modalities, and employ a shared classifier to unify feature spaces. Extensive experiments across multiple benchmark datasets show our method substantially outperforms traditional KD and state-of-the-art cross-modal KD approaches. Code is available at https://github.com/Johumliu/FD-CMKD.
- Abstract(参考訳): 知識蒸留 (KD) は, 大型モデルの圧縮と小型モデルの性能向上に有効であることが証明されている。
しかし、その効果は、モダリティにまたがる表現の不整合が知識の伝達を困難にする、視覚から言語への蒸留のような、モーダル間のシナリオにおいて減少する。
この課題に対処するため,周波数領域の特徴を活用してモダリティ間の知識伝達を分離・バランスさせる手法である周波数分離型クロスモーダル知識蒸留法を提案する。
その結果,低周波特性は異なるモードで高い整合性を示すのに対し,高周波特性はクロスモーダルな類似性が極めて低いことがわかった。
したがって、低周波領域における強いアライメントを強制し、高周波の特徴に対して緩やかなアライメントを導入することにより、これらの特徴に異なる損失を与える。
また、モダリティ間の分散シフトに対処するスケール一貫性損失を提案し、特徴空間を統一するために共有分類器を用いる。
複数のベンチマークデータセットにまたがる大規模な実験により、我々の手法は従来のKDと最先端のクロスモーダルKDアプローチを大きく上回っている。
コードはhttps://github.com/Johumliu/FD-CMKDで入手できる。
関連論文リスト
- Decoupled Audio-Visual Dataset Distillation [44.63243875072762]
本稿では,事前学習に基づくオーディオ-視覚蒸留フレームワークであるDAVDDを提案する。
これらの課題に対処するため、プレトレーニングベースで分離されたオーディオ視覚蒸留フレームワークであるDAVDDを提案する。
論文 参考訳(メタデータ) (2025-11-22T02:36:50Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents [55.43139356528315]
一貫性モデル(CM)は、フロー常微分方程式の軌跡に一貫性があるように訓練される。
CMは典型的には、競争力のあるサンプルの品質を得るために、大きなバッチサイズで長期のトレーニングを必要とする。
本稿では,データ多様体に向いた多様体整列接点を提供する,MFDと呼ばれる新しい損失関数を提案する。
論文 参考訳(メタデータ) (2025-10-01T08:35:18Z) - FiGKD: Fine-Grained Knowledge Distillation via High-Frequency Detail Transfer [0.0]
Fine-Grained Knowledge Distillation (FiGKD) は、モデルのロジットを低周波(コンテンツ)と高周波(詳細)に分解する周波数認識フレームワークである。
FiGKDは、最先端のロジットベースおよび特徴ベースの蒸留法を様々な教師の学生構成で一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-17T08:27:02Z) - On Distilling the Displacement Knowledge for Few-Shot Class-Incremental Learning [17.819582979803286]
FSCIL(Few-shot Class-Incremental Learning)は、データ分散の進化と、現実のシナリオにおけるデータ取得の難しさに対処する。
FSCILでよく見られる破滅的な忘れ事に対処するために、知識の蒸留は、学習されたデータ分布から知識を維持する方法として用いられる。
論文 参考訳(メタデータ) (2024-12-15T02:10:18Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。