論文の概要: Modality Mixer Exploiting Complementary Information for Multi-modal
Action Recognition
- arxiv url: http://arxiv.org/abs/2311.12344v1
- Date: Tue, 21 Nov 2023 04:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:09:27.190763
- Title: Modality Mixer Exploiting Complementary Information for Multi-modal
Action Recognition
- Title(参考訳): マルチモーダル動作認識のための補完的情報を活用したモダリティミキサ
- Authors: Sumin Lee, Sangmin Woo, Muhammad Adi Nugroho, Changick Kim
- Abstract要約: モータリティ・ミキサー(M-Mixer)ネットワークという新しいネットワークを提案する。
提案するM-Mixerの鍵となるコンポーネントはMCU(Multi-modal Contextualization Unit)である。
与えられたモダリティ設定に関する適切な補完情報を抽出するために、補足的特徴抽出モジュール(CFEM)という新しいモジュールを導入する。
- 参考スコア(独自算出の注目度): 17.95844876568496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the distinctive characteristics of sensors, each modality exhibits
unique physical properties. For this reason, in the context of multi-modal
action recognition, it is important to consider not only the overall action
content but also the complementary nature of different modalities. In this
paper, we propose a novel network, named Modality Mixer (M-Mixer) network,
which effectively leverages and incorporates the complementary information
across modalities with the temporal context of actions for action recognition.
A key component of our proposed M-Mixer is the Multi-modal Contextualization
Unit (MCU), a simple yet effective recurrent unit. Our MCU is responsible for
temporally encoding a sequence of one modality (e.g., RGB) with action content
features of other modalities (e.g., depth and infrared modalities). This
process encourages M-Mixer network to exploit global action content and also to
supplement complementary information of other modalities. Furthermore, to
extract appropriate complementary information regarding to the given modality
settings, we introduce a new module, named Complementary Feature Extraction
Module (CFEM). CFEM incorporates sepearte learnable query embeddings for each
modality, which guide CFEM to extract complementary information and global
action content from the other modalities. As a result, our proposed method
outperforms state-of-the-art methods on NTU RGB+D 60, NTU RGB+D 120, and
NW-UCLA datasets. Moreover, through comprehensive ablation studies, we further
validate the effectiveness of our proposed method.
- Abstract(参考訳): センサーの特徴的な特徴から、それぞれのモダリティはユニークな物理的性質を示す。
このため、マルチモーダル行動認識の文脈においては、全体的な行動内容だけでなく、異なるモダリティの相補的な性質も考慮することが重要である。
本稿では,モータリティ・ミキサー(M-Mixer)ネットワークという,モータリティ間の相補的情報と行動認識の時間的文脈を効果的に活用し,組み込んだネットワークを提案する。
提案するM-Mixerの鍵となるコンポーネントはMCU(Multi-modal Contextualization Unit)である。
我々のMCUは1つのモダリティ(例えば、RGB)のシーケンスを他のモダリティ(例えば、深さと赤外線のモダリティ)のアクション内容の特徴で時間的に符号化する責任がある。
このプロセスは、M-Mixerネットワークがグローバルなアクションコンテンツを活用し、他のモダリティの補完情報を補うことを奨励する。
さらに、与えられたモダリティ設定に関する適切な補完情報を抽出するために、補足的特徴抽出モジュール(CFEM)と呼ばれる新しいモジュールを導入する。
CFEMには、各モダリティに対するセパート学習可能なクエリ埋め込みが組み込まれており、CFEMは補完情報やグローバルアクションコンテンツを他のモダリティから抽出する。
その結果,提案手法は,NTU RGB+D 60,NTU RGB+D 120,NW-UCLAデータセットの最先端手法よりも優れていた。
さらに,包括的アブレーション研究を通じて,提案手法の有効性をさらに検証する。
関連論文リスト
- Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - DeCUR: decoupling common & unique representations for multimodal
self-supervision [23.44643489648528]
マルチモーダルな自己教師型学習のためのDecoupling Common and Unique Representations (DeCUR)を提案する。
モーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合するように訓練される。
シーン分類とセマンティックセグメンテーションの下流タスクにおける一貫した利点を示す。
論文 参考訳(メタデータ) (2023-09-11T08:35:23Z) - MMSFormer: Multimodal Transformer for Material and Semantic Segmentation [18.17649683468377]
本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
論文 参考訳(メタデータ) (2023-09-07T20:07:57Z) - A Low-rank Matching Attention based Cross-modal Feature Fusion Method
for Conversational Emotion Recognition [56.20144064187554]
本稿では,会話感情認識(CER)タスクのためのクロスモーダルな特徴融合手法を提案する。
LMAMは、一致重みを設定し、モーダル特徴列間のアテンションスコアを計算することにより、自己注意法よりも少ないパラメータを含む。
LMAMは既存のDLベースのCERメソッドに組み込むことができ、プラグ・アンド・プレイ方式で性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-16T16:02:44Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Modality Mixer for Multi-modal Action Recognition [18.884548325285863]
マルチモーダルな行動認識では、異なるモーダルの相補的な性質だけでなく、グローバルな行動内容も考慮する必要がある。
モータリティ・ミキサー(M-Mixer)ネットワークという新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-24T05:56:00Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Cross-modality Person re-identification with Shared-Specific Feature
Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。
モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文 参考訳(メタデータ) (2020-02-28T00:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。