論文の概要: CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation
- arxiv url: http://arxiv.org/abs/2208.12448v2
- Date: Tue, 30 Aug 2022 04:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 09:14:41.451343
- Title: CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation
- Title(参考訳): CMD:相互蒸留を用いた自己教師型3次元行動表現学習
- Authors: Yunyao Mao, Wengang Zhou, Zhenbo Lu, Jiajun Deng, Houqiang Li
- Abstract要約: 3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
- 参考スコア(独自算出の注目度): 130.08432609780374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 3D action recognition, there exists rich complementary information between
skeleton modalities. Nevertheless, how to model and utilize this information
remains a challenging problem for self-supervised 3D action representation
learning. In this work, we formulate the cross-modal interaction as a
bidirectional knowledge distillation problem. Different from classic
distillation solutions that transfer the knowledge of a fixed and pre-trained
teacher to the student, in this work, the knowledge is continuously updated and
bidirectionally distilled between modalities. To this end, we propose a new
Cross-modal Mutual Distillation (CMD) framework with the following designs. On
the one hand, the neighboring similarity distribution is introduced to model
the knowledge learned in each modality, where the relational information is
naturally suitable for the contrastive frameworks. On the other hand,
asymmetrical configurations are used for teacher and student to stabilize the
distillation process and to transfer high-confidence information between
modalities. By derivation, we find that the cross-modal positive mining in
previous works can be regarded as a degenerated version of our CMD. We perform
extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD II datasets.
Our approach outperforms existing self-supervised methods and sets a series of
new records. The code is available at: https://github.com/maoyunyao/CMD
- Abstract(参考訳): 3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
それでも、この情報をモデル化し活用する方法は、自己教師付き3次元行動表現学習において難しい問題である。
本研究では,双方向知識蒸留問題としてクロスモーダル相互作用を定式化する。
教師の知識を学生に伝達する古典的な蒸留ソリューションとは異なり、この研究では、知識は継続的に更新され、モダリティ間で双方向に蒸留される。
そこで,本稿では,以下の設計のクロスモーダル相互蒸留(cmd)フレームワークを提案する。
一方, 類似度分布は, 各モードで学習した知識をモデル化するために導入され, リレーショナル情報は対照的なフレームワークに自然に適合する。
一方, 教師と学生は, 蒸留工程を安定させ, モダリティ間で高信頼情報を伝達するために非対称な構成を用いる。
導出により、過去の作品における相互正の鉱業は、我々のCMDの劣化版とみなすことができる。
我々は,NTU RGB+D 60,NTU RGB+D 120,PKU-MMD IIデータセットについて広範な実験を行った。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
コードはhttps://github.com/maoyunyao/cmdで入手できる。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - Elevating Skeleton-Based Action Recognition with Efficient
Multi-Modality Self-Supervision [40.16465314639641]
近年,人間の行動認識のための自己指導型表現学習が急速に発展している。
既存の作業の多くは、マルチモダリティ設定を使用してスケルトンデータに基づいている。
本稿ではまず,低性能モード間の誤った知識の伝播を緩和するインプリシト知識交換モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-21T12:27:43Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。