論文の概要: A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning
- arxiv url: http://arxiv.org/abs/2306.15977v1
- Date: Wed, 28 Jun 2023 07:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:14:19.653048
- Title: A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning
- Title(参考訳): 次元構造に基づくクロスモーダル学習のための知識蒸留法
- Authors: Lingyu Si, Hongwei Dong, Wenwen Qiang, Junzhi Yu, Wenlong Zhai,
Changwen Zheng, Fanjiang Xu, Fuchun Sun
- Abstract要約: 簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。
クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。
提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
- 参考スコア(独自算出の注目度): 15.544134849816528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to limitations in data quality, some essential visual tasks are difficult
to perform independently. Introducing previously unavailable information to
transfer informative dark knowledge has been a common way to solve such hard
tasks. However, research on why transferred knowledge works has not been
extensively explored. To address this issue, in this paper, we discover the
correlation between feature discriminability and dimensional structure (DS) by
analyzing and observing features extracted from simple and hard tasks. On this
basis, we express DS using deep channel-wise correlation and intermediate
spatial distribution, and propose a novel cross-modal knowledge distillation
(CMKD) method for better supervised cross-modal learning (CML) performance. The
proposed method enforces output features to be channel-wise independent and
intermediate ones to be uniformly distributed, thereby learning semantically
irrelevant features from the hard task to boost its accuracy. This is
especially useful in specific applications where the performance gap between
dual modalities is relatively large. Furthermore, we collect a real-world CML
dataset to promote community development. The dataset contains more than 10,000
paired optical and radar images and is continuously being updated. Experimental
results on real-world and benchmark datasets validate the effectiveness of the
proposed method.
- Abstract(参考訳): データ品質の制限のため、いくつかの重要な視覚タスクは独立して実行するのは難しい。
情報的な暗黒知識を伝達するために、これまで利用できなかった情報を導入することは、そのような困難な課題を解決する一般的な方法である。
しかし、なぜ転向した知識労働が広範に研究されていないのか。
本稿では,単純かつ難解な課題から抽出された特徴を解析・観察することにより,特徴判別性と次元構造(ds)との相関性を見出す。
そこで我々は, 深いチャネル関係と中間空間分布を用いてDSを表現し, 教師付きクロスモーダル学習(CML)の性能向上のための新しいクロスモーダル知識蒸留法を提案する。
提案手法では,出力特徴をチャネル毎に独立し,中間特徴を均一に分散させることで,難課題から意味的に無関係な特徴を学習し,その正確性を高める。
これは、二重モード間の性能ギャップが比較的大きい特定のアプリケーションで特に有用である。
さらに,コミュニティ開発を促進するために,実世界のCMLデータセットを収集した。
データセットには1万以上の光学画像とレーダー画像が含まれており、継続的に更新されている。
実世界およびベンチマークデータセットにおける実験結果は,提案手法の有効性を検証する。
関連論文リスト
- Hyperspectral Image Analysis in Single-Modal and Multimodal setting
using Deep Learning Techniques [1.2328446298523066]
ハイパースペクトルイメージングは、その例外的なスペクトル分解能のため、土地利用とカバーの正確な分類を提供する。
しかし、高次元化と空間分解能の制限による課題は、その効果を妨げている。
本研究では,深層学習技術を用いて特徴を効率的に処理し,抽出し,データを統合的に分類することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2024-03-03T15:47:43Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Self-aware and Cross-sample Prototypical Learning for Semi-supervised
Medical Image Segmentation [10.18427897663732]
整合性学習は半教師付き医療画像セグメンテーションにおいて重要な役割を担っている。
これにより、注釈なしデータの豊富さを生かしながら、限られた注釈付きデータの有効利用が可能になる。
一貫性学習における予測の多様性を高めるために,自己認識型・クロスサンプル型学習法(SCP-Net)を提案する。
論文 参考訳(メタデータ) (2023-05-25T16:22:04Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Hyperspherical Consistency Regularization [45.00073340936437]
我々は,自己教師あり学習と教師あり学習の関係について検討し,自己教師あり学習がデータ効率のよい深層学習にどのように役立つかを検討する。
超球面整合正則化(HCR)を提案し,特徴依存情報を用いた分類器の正規化を行い,ラベルからのバイアスを回避する。
論文 参考訳(メタデータ) (2022-06-02T02:41:13Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。