Fugu-MT 論文翻訳(概要): A Dimensional Structure based Knowledge Distillation Method for Cross-Modal Learning

論文の概要: A Dimensional Structure based Knowledge Distillation Method for Cross-Modal Learning

arxiv url: http://arxiv.org/abs/2306.15977v1
Date: Wed, 28 Jun 2023 07:29:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 15:14:19.653048
Title: A Dimensional Structure based Knowledge Distillation Method for Cross-Modal Learning
Title（参考訳）: 次元構造に基づくクロスモーダル学習のための知識蒸留法
Authors: Lingyu Si, Hongwei Dong, Wenwen Qiang, Junzhi Yu, Wenlong Zhai, Changwen Zheng, Fanjiang Xu, Fuchun Sun
Abstract要約: 簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
参考スコア（独自算出の注目度）: 15.544134849816528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to limitations in data quality, some essential visual tasks are difficult to perform independently. Introducing previously unavailable information to transfer informative dark knowledge has been a common way to solve such hard tasks. However, research on why transferred knowledge works has not been extensively explored. To address this issue, in this paper, we discover the correlation between feature discriminability and dimensional structure (DS) by analyzing and observing features extracted from simple and hard tasks. On this basis, we express DS using deep channel-wise correlation and intermediate spatial distribution, and propose a novel cross-modal knowledge distillation (CMKD) method for better supervised cross-modal learning (CML) performance. The proposed method enforces output features to be channel-wise independent and intermediate ones to be uniformly distributed, thereby learning semantically irrelevant features from the hard task to boost its accuracy. This is especially useful in specific applications where the performance gap between dual modalities is relatively large. Furthermore, we collect a real-world CML dataset to promote community development. The dataset contains more than 10,000 paired optical and radar images and is continuously being updated. Experimental results on real-world and benchmark datasets validate the effectiveness of the proposed method.
Abstract（参考訳）: データ品質の制限のため、いくつかの重要な視覚タスクは独立して実行するのは難しい。情報的な暗黒知識を伝達するために、これまで利用できなかった情報を導入することは、そのような困難な課題を解決する一般的な方法である。しかし、なぜ転向した知識労働が広範に研究されていないのか。本稿では,単純かつ難解な課題から抽出された特徴を解析・観察することにより,特徴判別性と次元構造(ds)との相関性を見出す。そこで我々は, 深いチャネル関係と中間空間分布を用いてDSを表現し, 教師付きクロスモーダル学習(CML)の性能向上のための新しいクロスモーダル知識蒸留法を提案する。提案手法では,出力特徴をチャネル毎に独立し,中間特徴を均一に分散させることで,難課題から意味的に無関係な特徴を学習し,その正確性を高める。これは、二重モード間の性能ギャップが比較的大きい特定のアプリケーションで特に有用である。さらに,コミュニティ開発を促進するために,実世界のCMLデータセットを収集した。データセットには1万以上の光学画像とレーダー画像が含まれており、継続的に更新されている。実世界およびベンチマークデータセットにおける実験結果は,提案手法の有効性を検証する。

関連論文リスト

What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文参考訳（メタデータ） (2025-01-28T14:12:32Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
DAAL: Density-Aware Adaptive Line Margin Loss for Multi-Modal Deep Metric Learning [1.9472493183927981]
本稿では,DAAL(Dedentity-Aware Adaptive Margin Loss)と呼ばれる新しい損失関数を提案する。 DAALは、各クラス内の適応サブクラスタの形成を奨励しながら、埋め込みの密度分布を保存する。ベンチマークによるきめ細かいデータセットの実験は、DAALの優れた性能を示している。
論文参考訳（メタデータ） (2024-10-07T19:04:24Z)
SGW-based Multi-Task Learning in Vision Tasks [8.459976488960269]
データセットの規模が拡大し、タスクの複雑さが増すにつれ、知識の共有はますます困難になってきている。情報ボトルネック知識抽出モジュール(KEM)を提案する。このモジュールは,情報の流れを制約することでタスク間干渉を減らすことを目的としており,計算複雑性を低減する。
論文参考訳（メタデータ） (2024-10-03T13:56:50Z)
Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified Trajectory [53.37473225728298]
ディープラーニングと大規模言語モデルの急速な進化により、トレーニングデータの需要が指数関数的に増加した。 MTT(Matching Training Trajectories)は、専門家ネットワークのトレーニングトラジェクトリを、合成データセットで実データ上に複製する、顕著なアプローチである。そこで本研究では,学生の軌道に対するより良いガイダンスを提供することを目的として,MCT (Matching Convexified Trajectory) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-28T11:06:46Z)
A Generalization Theory of Cross-Modality Distillation with Contrastive Learning [49.35244441141323]
クロスモダリティ蒸留は、限られた知識を含むデータモダリティにとって重要なトピックである。コントラスト学習に基づくクロスモーダルコントラスト蒸留(CMCD)の一般的な枠組みを定式化する。我々のアルゴリズムは、様々なモダリティやタスクに対して、2-3%のマージンで既存のアルゴリズムを一貫して上回ります。
論文参考訳（メタデータ） (2024-05-06T11:05:13Z)
Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文参考訳（メタデータ） (2024-04-28T08:44:28Z)
Attention-guided Feature Distillation for Semantic Segmentation [8.344263189293578]
本稿では,改良された特徴写像を用いて注目を伝達するための簡易かつ強力な手法の有効性を示す。 CBAM(Convolutional Block Attention Module)を用いたAttnFD(AttnFD)法の提案これはPascalVoc 2012、Cityscapes、COCO、CamVidデータセット上の学生ネットワークの平均的相互接続(mIoU)を改善するという観点から、最先端の結果を達成する。
論文参考訳（メタデータ） (2024-03-08T16:57:47Z)
Hyperspectral Image Analysis in Single-Modal and Multimodal setting using Deep Learning Techniques [1.2328446298523066]
ハイパースペクトルイメージングは、その例外的なスペクトル分解能のため、土地利用とカバーの正確な分類を提供する。しかし、高次元化と空間分解能の制限による課題は、その効果を妨げている。本研究では,深層学習技術を用いて特徴を効率的に処理し,抽出し,データを統合的に分類することで,これらの課題に対処する。
論文参考訳（メタデータ） (2024-03-03T15:47:43Z)
Reinforcement Learning Based Multi-modal Feature Fusion Network for Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文参考訳（メタデータ） (2023-08-26T07:55:32Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2022-08-26T09:35:20Z)
CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文参考訳（メタデータ） (2022-08-26T06:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。