論文の概要: Asymmetric Cross-Modal Knowledge Distillation: Bridging Modalities with Weak Semantic Consistency
- arxiv url: http://arxiv.org/abs/2511.08901v1
- Date: Thu, 13 Nov 2025 01:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.286878
- Title: Asymmetric Cross-Modal Knowledge Distillation: Bridging Modalities with Weak Semantic Consistency
- Title(参考訳): 非対称なクロスモーダルな知識蒸留:弱セマンティック整合性を有する橋渡しモーダリティ
- Authors: Riling Wei, Kelu Yao, Chuanguang Yang, Jin Wang, Zhuoyan Gao, Chao Li,
- Abstract要約: クロスモーダルな知識蒸留は、強いセマンティック接続を持つペアのモダリティに対して有望な性能を示した。
非対称なクロスモーダル知識蒸留(ACKD)と呼ばれる,意味整合性の弱い知識学習概念について検討する。
本稿では,SemBridgeというフレームワークを提案し,学生フレンドリーマッチングモジュールとセマンティック知識調整モジュールを統合する。
- 参考スコア(独自算出の注目度): 16.550957851406014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal Knowledge Distillation has demonstrated promising performance on paired modalities with strong semantic connections, referred to as Symmetric Cross-modal Knowledge Distillation (SCKD). However, implementing SCKD becomes exceedingly constrained in real-world scenarios due to the limited availability of paired modalities. To this end, we investigate a general and effective knowledge learning concept under weak semantic consistency, dubbed Asymmetric Cross-modal Knowledge Distillation (ACKD), aiming to bridge modalities with limited semantic overlap. Nevertheless, the shift from strong to weak semantic consistency improves flexibility but exacerbates challenges in knowledge transmission costs, which we rigorously verified based on optimal transport theory. To mitigate the issue, we further propose a framework, namely SemBridge, integrating a Student-Friendly Matching module and a Semantic-aware Knowledge Alignment module. The former leverages self-supervised learning to acquire semantic-based knowledge and provide personalized instruction for each student sample by dynamically selecting the relevant teacher samples. The latter seeks the optimal transport path by employing Lagrangian optimization. To facilitate the research, we curate a benchmark dataset derived from two modalities, namely Multi-Spectral (MS) and asymmetric RGB images, tailored for remote sensing scene classification. Comprehensive experiments exhibit that our framework achieves state-of-the-art performance compared with 7 existing approaches on 6 different model architectures across various datasets.
- Abstract(参考訳): クロスモーダル知識蒸留は、SCKD(Symmetric Cross-modal Knowledge Distillation)と呼ばれる強力なセマンティック接続を持つペアモードにおいて有望な性能を示す。
しかし、SCKDの実装はペアモードの可用性が制限されているため、現実のシナリオでは極端に制約される。
そこで本研究では,非対称なクロスモーダル知識蒸留 (ACKD) と呼ばれる,意味的整合性の弱い知識学習概念を考察し,意味的重なりが限定されたモダリティを橋渡しすることを目的とした。
それでも、強い意味的一貫性から弱い意味的整合性へのシフトは柔軟性を向上させるが、最適輸送理論に基づいて厳密に検証された知識伝達コストの課題を悪化させる。
さらに,この問題を軽減するために,学生フレンドリーマッチングモジュールとセマンティック知識調整モジュールを統合したSemBridgeというフレームワークを提案する。
前者は、自己指導型学習を活用して意味に基づく知識を取得し、関連する教師サンプルを動的に選択することで、各生徒にパーソナライズされた指導を提供する。
後者はラグランジュ最適化を用いて最適な輸送経路を求める。
本研究では,リモートセンシングシーン分類に適したマルチスペクトル(MS)と非対称RGB画像の2つのモードから得られたベンチマークデータセットをキュレートする。
総合的な実験により、我々のフレームワークは、様々なデータセットにまたがる6つの異なるモデルアーキテクチャに関する既存の7つのアプローチと比較して、最先端のパフォーマンスを実現していることが示された。
関連論文リスト
- Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture [6.928469290518152]
マルチモーダルタスクにJEPA(Joint-Embedding Predictive Architecture)を導入する。
入力埋め込みを出力埋め込み空間に予測器で変換し、次に潜在空間上でクロスモーダルアライメントを実行する。
我々は,M3-JEPAが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [16.69453837626083]
本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
論文 参考訳(メタデータ) (2024-04-25T09:35:09Z) - A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning [15.544134849816528]
簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。
クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。
提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
論文 参考訳(メタデータ) (2023-06-28T07:29:26Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。