論文の概要: Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition
- arxiv url: http://arxiv.org/abs/2001.11657v1
- Date: Fri, 31 Jan 2020 04:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:38:21.880877
- Title: Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition
- Title(参考訳): モダリティ補償ネットワーク:行動認識のためのクロスモーダル適応
- Authors: Sijie Song, Jiaying Liu, Yanghao Li, Zongming Guo
- Abstract要約: 異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 77.24983234113957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prevalence of RGB-D cameras, multi-modal video data have become more
available for human action recognition. One main challenge for this task lies
in how to effectively leverage their complementary information. In this work,
we propose a Modality Compensation Network (MCN) to explore the relationships
of different modalities, and boost the representations for human action
recognition. We regard RGB/optical flow videos as source modalities, skeletons
as auxiliary modality. Our goal is to extract more discriminative features from
source modalities, with the help of auxiliary modality. Built on deep
Convolutional Neural Networks (CNN) and Long Short Term Memory (LSTM) networks,
our model bridges data from source and auxiliary modalities by a modality
adaptation block to achieve adaptive representation learning, that the network
learns to compensate for the loss of skeletons at test time and even at
training time. We explore multiple adaptation schemes to narrow the distance
between source and auxiliary modal distributions from different levels,
according to the alignment of source and auxiliary data in training. In
addition, skeletons are only required in the training phase. Our model is able
to improve the recognition performance with source data when testing.
Experimental results reveal that MCN outperforms state-of-the-art approaches on
four widely-used action recognition benchmarks.
- Abstract(参考訳): RGB-Dカメラの普及に伴い、マルチモーダルビデオデータが人間の行動認識に利用できるようになった。
このタスクの主な課題のひとつは、補完的な情報を効果的に活用する方法にある。
本研究では,異なるモダリティの関係を探索し,人間の行動認識のための表現を促進するためのモダリティ補償ネットワーク(MCN)を提案する。
rgb/optical flow videoをソースモダリティ,スケルトンを補助モダリティとする。
我々の目標は、補助モダリティの助けを借りて、ソースモダリティからより差別的な特徴を抽出することである。
深層畳み込みニューラルネットワーク(CNN)とLong Short Term Memory(LSTM)ネットワーク上に構築されたモデルでは,適応的な表現学習を実現するために,ソースおよび補助モダリティからのデータをモダリティ適応ブロックでブリッジし,テスト時やトレーニング時にも骨格の喪失を補うことを学習する。
トレーニングにおけるソースデータと補助データのアライメントに基づいて、ソースと補助モーダル分布の距離を異なるレベルから絞り込むための複数の適応スキームを探索する。
さらに、骨格は訓練段階でのみ必要とされる。
我々のモデルは、テスト時にソースデータを用いて認識性能を向上させることができる。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
関連論文リスト
- Robust Divergence Learning for Missing-Modality Segmentation [6.144772447916824]
マルチモーダルMRI(Multimodal Magnetic Resonance Imaging)は、脳腫瘍の亜領域を解析するための重要な補完情報を提供する。
自動セグメンテーションのための4つの一般的なMRIモダリティを用いた手法は成功しているが、画像品質の問題、一貫性のないプロトコル、アレルギー反応、コスト要因などにより、モダリティの欠如に悩まされることが多い。
H"古い発散と相互情報に基づく新しい単一モード並列処理ネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-13T03:03:30Z) - Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter [32.64004722423187]
RGB-スケルトン行動認識モデルのロバスト性を改善する方法について述べる。
本稿では,formatwordAMR(formatwordAttention-based formatwordModality formatwordReweighter)を提案する。
私たちのAMRはプラグアンドプレイで、マルチモーダルモデルと簡単に統合できます。
論文 参考訳(メタデータ) (2024-07-29T13:15:51Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Adaptive Affinity-Based Generalization For MRI Imaging Segmentation Across Resource-Limited Settings [1.5703963908242198]
本稿では,適応親和性に基づく蒸留とカーネルベースの蒸留をシームレスに組み合わせた,新しい関係に基づく知識フレームワークを提案する。
革新的アプローチを検証するために,我々は公開されている複数ソースのMRIデータについて実験を行った。
論文 参考訳(メタデータ) (2024-04-03T13:35:51Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - Adaptive Parameterization of Deep Learning Models for Federated Learning [85.82002651944254]
Federated Learningは、分散形式でディープニューラルネットワークをトレーニングする方法を提供する。
トレーニング中にモデルパラメータや勾配を定期的に交換する必要があるため、通信オーバーヘッドが発生する。
本稿では,フェデレートラーニングのための並列適応器を提案する。
論文 参考訳(メタデータ) (2023-02-06T17:30:33Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。