論文の概要: Modality Mixer for Multi-modal Action Recognition
- arxiv url: http://arxiv.org/abs/2208.11314v1
- Date: Wed, 24 Aug 2022 05:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:47:38.991164
- Title: Modality Mixer for Multi-modal Action Recognition
- Title(参考訳): マルチモーダル動作認識のためのモダリティミキサ
- Authors: Sumin Lee, Sangmin Woo, Yeonju Park, Muhammad Adi Nugroho, and
Changick Kim
- Abstract要約: マルチモーダルな行動認識では、異なるモーダルの相補的な性質だけでなく、グローバルな行動内容も考慮する必要がある。
モータリティ・ミキサー(M-Mixer)ネットワークという新しいネットワークを提案する。
- 参考スコア(独自算出の注目度): 18.884548325285863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-modal action recognition, it is important to consider not only the
complementary nature of different modalities but also global action content. In
this paper, we propose a novel network, named Modality Mixer (M-Mixer) network,
to leverage complementary information across modalities and temporal context of
an action for multi-modal action recognition. We also introduce a simple yet
effective recurrent unit, called Multi-modal Contextualization Unit (MCU),
which is a core component of M-Mixer. Our MCU temporally encodes a sequence of
one modality (e.g., RGB) with action content features of other modalities
(e.g., depth, IR). This process encourages M-Mixer to exploit global action
content and also to supplement complementary information of other modalities.
As a result, our proposed method outperforms state-of-the-art methods on NTU
RGB+D 60, NTU RGB+D 120, and NW-UCLA datasets. Moreover, we demonstrate the
effectiveness of M-Mixer by conducting comprehensive ablation studies.
- Abstract(参考訳): マルチモーダル行動認識では、異なるモダリティの相補的性質だけでなく、グローバルな行動内容も考慮することが重要である。
本稿では,マルチモーダル動作認識のための動作の時間的コンテキストと相補的な情報を利用する,M-Mixer(Modality Mixer, M-Mixer)ネットワークを提案する。
また、M-MixerのコアコンポーネントであるMulti-modal Contextualization Unit (MCU) という、シンプルで効果的なリカレントユニットも導入する。
我々のMCUは1つのモダリティ(例えばRGB)のシーケンスを時間的に符号化し、他のモダリティ(例えばディープ、IR)のアクション内容の特徴を持つ。
このプロセスは、M-Mixerがグローバルなアクションコンテンツを活用し、他のモダリティの補完情報を補完することを奨励する。
その結果,提案手法は,NTU RGB+D 60,NTU RGB+D 120,NW-UCLAデータセットの最先端手法よりも優れていた。
さらに,包括的アブレーション研究により,M-Mixerの有効性を示す。
関連論文リスト
- Detached and Interactive Multimodal Learning [17.843121072628477]
本稿では,モダリティにまたがる補完情報を学習するための新しいMMLフレームワークであるDI-MMLを紹介する。
各モダリティエンコーダを独立した学習目標で個別に訓練することで、競争に対処する。
音声・視覚・フロー画像・前面画像データを用いた実験は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-28T15:38:58Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Modality Mixer Exploiting Complementary Information for Multi-modal
Action Recognition [17.95844876568496]
モータリティ・ミキサー(M-Mixer)ネットワークという新しいネットワークを提案する。
提案するM-Mixerの鍵となるコンポーネントはMCU(Multi-modal Contextualization Unit)である。
与えられたモダリティ設定に関する適切な補完情報を抽出するために、補足的特徴抽出モジュール(CFEM)という新しいモジュールを導入する。
論文 参考訳(メタデータ) (2023-11-21T04:32:28Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。