論文の概要: Modality Mixer Exploiting Complementary Information for Multi-modal
Action Recognition
- arxiv url: http://arxiv.org/abs/2311.12344v1
- Date: Tue, 21 Nov 2023 04:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:09:27.190763
- Title: Modality Mixer Exploiting Complementary Information for Multi-modal
Action Recognition
- Title(参考訳): マルチモーダル動作認識のための補完的情報を活用したモダリティミキサ
- Authors: Sumin Lee, Sangmin Woo, Muhammad Adi Nugroho, Changick Kim
- Abstract要約: モータリティ・ミキサー(M-Mixer)ネットワークという新しいネットワークを提案する。
提案するM-Mixerの鍵となるコンポーネントはMCU(Multi-modal Contextualization Unit)である。
与えられたモダリティ設定に関する適切な補完情報を抽出するために、補足的特徴抽出モジュール(CFEM)という新しいモジュールを導入する。
- 参考スコア(独自算出の注目度): 17.95844876568496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the distinctive characteristics of sensors, each modality exhibits
unique physical properties. For this reason, in the context of multi-modal
action recognition, it is important to consider not only the overall action
content but also the complementary nature of different modalities. In this
paper, we propose a novel network, named Modality Mixer (M-Mixer) network,
which effectively leverages and incorporates the complementary information
across modalities with the temporal context of actions for action recognition.
A key component of our proposed M-Mixer is the Multi-modal Contextualization
Unit (MCU), a simple yet effective recurrent unit. Our MCU is responsible for
temporally encoding a sequence of one modality (e.g., RGB) with action content
features of other modalities (e.g., depth and infrared modalities). This
process encourages M-Mixer network to exploit global action content and also to
supplement complementary information of other modalities. Furthermore, to
extract appropriate complementary information regarding to the given modality
settings, we introduce a new module, named Complementary Feature Extraction
Module (CFEM). CFEM incorporates sepearte learnable query embeddings for each
modality, which guide CFEM to extract complementary information and global
action content from the other modalities. As a result, our proposed method
outperforms state-of-the-art methods on NTU RGB+D 60, NTU RGB+D 120, and
NW-UCLA datasets. Moreover, through comprehensive ablation studies, we further
validate the effectiveness of our proposed method.
- Abstract(参考訳): センサーの特徴的な特徴から、それぞれのモダリティはユニークな物理的性質を示す。
このため、マルチモーダル行動認識の文脈においては、全体的な行動内容だけでなく、異なるモダリティの相補的な性質も考慮することが重要である。
本稿では,モータリティ・ミキサー(M-Mixer)ネットワークという,モータリティ間の相補的情報と行動認識の時間的文脈を効果的に活用し,組み込んだネットワークを提案する。
提案するM-Mixerの鍵となるコンポーネントはMCU(Multi-modal Contextualization Unit)である。
我々のMCUは1つのモダリティ(例えば、RGB)のシーケンスを他のモダリティ(例えば、深さと赤外線のモダリティ)のアクション内容の特徴で時間的に符号化する責任がある。
このプロセスは、M-Mixerネットワークがグローバルなアクションコンテンツを活用し、他のモダリティの補完情報を補うことを奨励する。
さらに、与えられたモダリティ設定に関する適切な補完情報を抽出するために、補足的特徴抽出モジュール(CFEM)と呼ばれる新しいモジュールを導入する。
CFEMには、各モダリティに対するセパート学習可能なクエリ埋め込みが組み込まれており、CFEMは補完情報やグローバルアクションコンテンツを他のモダリティから抽出する。
その結果,提案手法は,NTU RGB+D 60,NTU RGB+D 120,NW-UCLAデータセットの最先端手法よりも優れていた。
さらに,包括的アブレーション研究を通じて,提案手法の有効性をさらに検証する。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignment [7.109735168520378]
知識グラフの強化と質問応答システムの改善には,MMEA(Multi-modal entity alignment)が不可欠である。
既存の方法は、しばしばそれらの相補性を通じてモダリティを統合することにフォーカスするが、各モダリティの特異性を見落としている。
本稿では,モダリティの相補性と特異性の両方を革新的に統合するマルチモーダル一貫性・特異性融合フレームワーク(MCSFF)を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:35:25Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Modality Mixer for Multi-modal Action Recognition [18.884548325285863]
マルチモーダルな行動認識では、異なるモーダルの相補的な性質だけでなく、グローバルな行動内容も考慮する必要がある。
モータリティ・ミキサー(M-Mixer)ネットワークという新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-24T05:56:00Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Cross-modality Person re-identification with Shared-Specific Feature
Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。
モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文 参考訳(メタデータ) (2020-02-28T00:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。