論文の概要: On the Theory of Cross-Modality Distillation with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2405.03355v1
- Date: Mon, 6 May 2024 11:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:06:06.109694
- Title: On the Theory of Cross-Modality Distillation with Contrastive Learning
- Title(参考訳): コントラスト学習によるクロスモーダル蒸留の理論について
- Authors: Hangyu Lin, Chen Liu, Chengming Xu, Zhengqi Gao, Yanwei Fu, Yuan Yao,
- Abstract要約: クロスモダリティ蒸留は、限られた知識を含むデータモダリティにとって重要なトピックである。
コントラスト学習に基づくクロスモーダルコントラスト蒸留(CMCD)の一般的な枠組みを定式化する。
我々のアルゴリズムは、様々なモダリティやタスクに対して、2-3%のマージンで既存のアルゴリズムを一貫して上回ります。
- 参考スコア(独自算出の注目度): 49.35244441141323
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-modality distillation arises as an important topic for data modalities containing limited knowledge such as depth maps and high-quality sketches. Such techniques are of great importance, especially for memory and privacy-restricted scenarios where labeled training data is generally unavailable. To solve the problem, existing label-free methods leverage a few pairwise unlabeled data to distill the knowledge by aligning features or statistics between the source and target modalities. For instance, one typically aims to minimize the L2 distance or contrastive loss between the learned features of pairs of samples in the source (e.g. image) and the target (e.g. sketch) modalities. However, most algorithms in this domain only focus on the experimental results but lack theoretical insight. To bridge the gap between the theory and practical method of cross-modality distillation, we first formulate a general framework of cross-modality contrastive distillation (CMCD), built upon contrastive learning that leverages both positive and negative correspondence, towards a better distillation of generalizable features. Furthermore, we establish a thorough convergence analysis that reveals that the distance between source and target modalities significantly impacts the test error on downstream tasks within the target modality which is also validated by the empirical results. Extensive experimental results show that our algorithm outperforms existing algorithms consistently by a margin of 2-3\% across diverse modalities and tasks, covering modalities of image, sketch, depth map, and audio and tasks of recognition and segmentation.
- Abstract(参考訳): クロスモダリティ蒸留は、深度マップや高品質スケッチのような限られた知識を含むデータモダリティにとって重要なトピックである。
このようなテクニックは特に、ラベル付きトレーニングデータが一般に利用できないメモリやプライバシに制限されたシナリオにおいて非常に重要である。
この問題を解決するために、既存のラベルフリーな手法では、いくつかのラベルなしデータを利用して、ソースとターゲットのモダリティの特徴や統計を整合させて知識を抽出する。
例えば、典型的には、ソース(eg画像)とターゲット(egスケッチ)モダリティ内のサンプルのペアの学習した特徴間のL2距離や対照的な損失を最小限にすることを目的としている。
しかし、この分野のほとんどのアルゴリズムは実験結果にのみ焦点をあてているが、理論的な洞察は得られていない。
クロスモダリティ蒸留の理論と実践的手法のギャップを埋めるために,まず,正と負の対応を両立したコントラスト学習に基づくクロスモダリティコントラスト蒸留(CMCD)の一般的な枠組みを,より優れた一般化可能な特徴の蒸留に向けて定式化する。
さらに、実験結果から検証した目標モード内の下流タスクにおいて、ソースと目標モード間の距離がテストエラーに大きく影響することを明らかにする、徹底的な収束解析を確立した。
画像,スケッチ,深度マップ,および音声認識とセグメンテーションのタスクのモダリティを網羅し,既存のアルゴリズムを2~3倍のマージンで一貫した性能を示した。
関連論文リスト
- CrossMatch: Enhance Semi-Supervised Medical Image Segmentation with Perturbation Strategies and Knowledge Distillation [7.6057981800052845]
CrossMatchは、ラベル付きデータとラベルなしデータの両方からモデルの学習を改善するために、知識蒸留とデュアル戦略レベルの機能レベルを統合する新しいフレームワークである。
本手法は,ラベル付きデータとラベルなしデータのトレーニングのギャップを効果的に最小化することにより,標準ベンチマークにおける他の最先端技術を大幅に超えている。
論文 参考訳(メタデータ) (2024-05-01T07:16:03Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning [15.544134849816528]
簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。
クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。
提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
論文 参考訳(メタデータ) (2023-06-28T07:29:26Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Uncertainty-Guided Mutual Consistency Learning for Semi-Supervised
Medical Image Segmentation [9.745971699005857]
医用画像セグメンテーションのための新しい不確実性誘導相互整合学習フレームワークを提案する。
タスクレベルの正規化によるタスク内一貫性学習と、タスク間の整合性学習を統合して、幾何学的な形状情報を活用する。
本手法は,ラベルのないデータを活用し,既存の半教師付きセグメンテーション法より優れた性能を実現する。
論文 参考訳(メタデータ) (2021-12-05T08:19:41Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。