論文の概要: I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation
- arxiv url: http://arxiv.org/abs/2310.15568v1
- Date: Tue, 24 Oct 2023 07:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:09:28.346622
- Title: I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation
- Title(参考訳): I$^2$MD:Modal Mutual Distillationを用いた3D行動表現学習
- Authors: Yunyao Mao, Jiajun Deng, Wengang Zhou, Zhenbo Lu, Wanli Ouyang,
Houqiang Li
- Abstract要約: 一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
- 参考スコア(独自算出の注目度): 147.2183428328396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progresses on self-supervised 3D human action representation learning
are largely attributed to contrastive learning. However, in conventional
contrastive frameworks, the rich complementarity between different skeleton
modalities remains under-explored. Moreover, optimized with distinguishing
self-augmented samples, models struggle with numerous similar positive
instances in the case of limited action categories. In this work, we tackle the
aforementioned problems by introducing a general Inter- and Intra-modal Mutual
Distillation (I$^2$MD) framework. In I$^2$MD, we first re-formulate the
cross-modal interaction as a Cross-modal Mutual Distillation (CMD) process.
Different from existing distillation solutions that transfer the knowledge of a
pre-trained and fixed teacher to the student, in CMD, the knowledge is
continuously updated and bidirectionally distilled between modalities during
pre-training. To alleviate the interference of similar samples and exploit
their underlying contexts, we further design the Intra-modal Mutual
Distillation (IMD) strategy, In IMD, the Dynamic Neighbors Aggregation (DNA)
mechanism is first introduced, where an additional cluster-level discrimination
branch is instantiated in each modality. It adaptively aggregates
highly-correlated neighboring features, forming local cluster-level
contrasting. Mutual distillation is then performed between the two branches for
cross-level knowledge exchange. Extensive experiments on three datasets show
that our approach sets a series of new records.
- Abstract(参考訳): 近年の自己教師型3次元行動表現学習の進歩は、主に対照的な学習によるものである。
しかし、従来の対照的な枠組みでは、異なる骨格のモダリティ間の豊富な相補性は未解明のままである。
さらに、自己提供したサンプルの識別に最適化されたモデルでは、限定されたアクションカテゴリの場合、同様のポジティブなインスタンスが多数発生する。
本研究では, 一般的な相互蒸留(I$^2$MD)フレームワークを導入することで, 上記の問題に対処する。
i$^2$md では、まずクロスモーダル相互作用をクロスモーダル相互蒸留(cmd)過程として再計算する。
教員の知識を学生に伝達する既存の蒸留ソリューションとは異なり、CMDでは、知識は継続的に更新され、事前訓練中にモダリティ間で双方向に蒸留される。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,IMD(Intra-modal Mutual Distillation)戦略,IMD(Dynamic Neighbors Aggregation)メカニズムを最初に導入し,各モードで追加のクラスタレベルの識別ブランチをインスタンス化する。
高度に相関した隣り合う特徴を適応的に集約し、局所的なクラスタレベルのコントラストを形成する。
相互蒸留は2つの分枝間で行われ、相互レベルの知識交換が行われる。
3つのデータセットに関する広範な実験は、我々のアプローチが一連の新しいレコードを設定することを示している。
関連論文リスト
- DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - Unified Molecular Modeling via Modality Blending [35.16755562674055]
我々は,新しい「Blund-then-predict」自己教師型学習法(MoleBLEND)を導入する。
MoleBLENDは、異なるモジュラリティからの原子関係をマトリックス符号化のための1つの統一された関係にブレンドし、2D構造と3D構造の両方のモダリティ固有情報を復元する。
実験によると、MoleBLENDは主要な2D/3Dベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-12T15:27:06Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Improving the Modality Representation with Multi-View Contrastive
Learning for Multimodal Sentiment Analysis [15.623293264871181]
コントラスト学習によるモダリティ表現の改良手法について検討した。
我々は,多視点コントラスト学習を用いた3段階のフレームワークを考案し,特定の目的の表現を洗練させる。
3つのオープンデータセットで実験を行い、その結果、我々のモデルの進歩を示す。
論文 参考訳(メタデータ) (2022-10-28T01:25:16Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。