Fugu-MT 論文翻訳(概要): Modality Mixer Exploiting Complementary Information for Multi-modal Action Recognition

論文の概要: Modality Mixer Exploiting Complementary Information for Multi-modal Action Recognition

arxiv url: http://arxiv.org/abs/2311.12344v1
Date: Tue, 21 Nov 2023 04:32:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 02:09:27.190763
Title: Modality Mixer Exploiting Complementary Information for Multi-modal Action Recognition
Title（参考訳）: マルチモーダル動作認識のための補完的情報を活用したモダリティミキサ
Authors: Sumin Lee, Sangmin Woo, Muhammad Adi Nugroho, Changick Kim
Abstract要約: モータリティ・ミキサー(M-Mixer)ネットワークという新しいネットワークを提案する。提案するM-Mixerの鍵となるコンポーネントはMCU(Multi-modal Contextualization Unit)である。与えられたモダリティ設定に関する適切な補完情報を抽出するために、補足的特徴抽出モジュール(CFEM)という新しいモジュールを導入する。
参考スコア（独自算出の注目度）: 17.95844876568496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the distinctive characteristics of sensors, each modality exhibits unique physical properties. For this reason, in the context of multi-modal action recognition, it is important to consider not only the overall action content but also the complementary nature of different modalities. In this paper, we propose a novel network, named Modality Mixer (M-Mixer) network, which effectively leverages and incorporates the complementary information across modalities with the temporal context of actions for action recognition. A key component of our proposed M-Mixer is the Multi-modal Contextualization Unit (MCU), a simple yet effective recurrent unit. Our MCU is responsible for temporally encoding a sequence of one modality (e.g., RGB) with action content features of other modalities (e.g., depth and infrared modalities). This process encourages M-Mixer network to exploit global action content and also to supplement complementary information of other modalities. Furthermore, to extract appropriate complementary information regarding to the given modality settings, we introduce a new module, named Complementary Feature Extraction Module (CFEM). CFEM incorporates sepearte learnable query embeddings for each modality, which guide CFEM to extract complementary information and global action content from the other modalities. As a result, our proposed method outperforms state-of-the-art methods on NTU RGB+D 60, NTU RGB+D 120, and NW-UCLA datasets. Moreover, through comprehensive ablation studies, we further validate the effectiveness of our proposed method.
Abstract（参考訳）: センサーの特徴的な特徴から、それぞれのモダリティはユニークな物理的性質を示す。このため、マルチモーダル行動認識の文脈においては、全体的な行動内容だけでなく、異なるモダリティの相補的な性質も考慮することが重要である。本稿では,モータリティ・ミキサー(M-Mixer)ネットワークという,モータリティ間の相補的情報と行動認識の時間的文脈を効果的に活用し,組み込んだネットワークを提案する。提案するM-Mixerの鍵となるコンポーネントはMCU(Multi-modal Contextualization Unit)である。我々のMCUは1つのモダリティ(例えば、RGB)のシーケンスを他のモダリティ(例えば、深さと赤外線のモダリティ)のアクション内容の特徴で時間的に符号化する責任がある。このプロセスは、M-Mixerネットワークがグローバルなアクションコンテンツを活用し、他のモダリティの補完情報を補うことを奨励する。さらに、与えられたモダリティ設定に関する適切な補完情報を抽出するために、補足的特徴抽出モジュール(CFEM)と呼ばれる新しいモジュールを導入する。 CFEMには、各モダリティに対するセパート学習可能なクエリ埋め込みが組み込まれており、CFEMは補完情報やグローバルアクションコンテンツを他のモダリティから抽出する。その結果,提案手法は,NTU RGB+D 60,NTU RGB+D 120,NW-UCLAデータセットの最先端手法よりも優れていた。さらに,包括的アブレーション研究を通じて,提案手法の有効性をさらに検証する。

関連論文リスト

Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion [0.0]
我々はMixture of Complementary Modality Experts (MoCME)という新しいフレームワークを提案する。 MoCMEはComplementarity-guided Modality Knowledge Fusion (CMKF)モジュールとEntropy-guided Negative Sampling (EGNS)メカニズムで構成されている。私たちのMoCMEは最先端のパフォーマンスを達成し、既存のアプローチを超越しています。
論文参考訳（メタデータ） (2025-07-28T08:35:11Z)
BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-04T08:04:58Z)
Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:42:22Z)
Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文参考訳（メタデータ） (2025-04-17T06:35:01Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignment [7.109735168520378]
知識グラフの強化と質問応答システムの改善には,MMEA(Multi-modal entity alignment)が不可欠である。既存の方法は、しばしばそれらの相補性を通じてモダリティを統合することにフォーカスするが、各モダリティの特異性を見落としている。本稿では,モダリティの相補性と特異性の両方を革新的に統合するマルチモーダル一貫性・特異性融合フレームワーク(MCSFF)を提案する。
論文参考訳（メタデータ） (2024-10-18T16:35:25Z)
Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。 MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文参考訳（メタデータ） (2024-07-22T15:16:47Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Modality Mixer for Multi-modal Action Recognition [18.884548325285863]
マルチモーダルな行動認識では、異なるモーダルの相補的な性質だけでなく、グローバルな行動内容も考慮する必要がある。モータリティ・ミキサー(M-Mixer)ネットワークという新しいネットワークを提案する。
論文参考訳（メタデータ） (2022-08-24T05:56:00Z)
A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文参考訳（メタデータ） (2021-11-03T12:24:03Z)
Cross-modality Person re-identification with Shared-Specific Feature Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文参考訳（メタデータ） (2020-02-28T00:18:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。