論文の概要: Towards Adaptive Fusion of Multimodal Deep Networks for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2512.04943v1
- Date: Thu, 04 Dec 2025 16:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.263044
- Title: Towards Adaptive Fusion of Multimodal Deep Networks for Human Action Recognition
- Title(参考訳): 人間行動認識のためのマルチモーダルディープネットワークの適応融合に向けて
- Authors: Novanto Yudistira,
- Abstract要約: 本研究では,深層ニューラルネットワーク技術と適応融合戦略を利用した人間の行動認識の先駆的手法を提案する。
ゲーティング機構は中心的な特徴の抽出を促進するため、行動のより包括的な表現をもたらす。
この研究の意義は、様々な分野にわたる行動認識システムに革命をもたらす可能性にある。
- 参考スコア(独自算出の注目度): 3.756550107432323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces a pioneering methodology for human action recognition by harnessing deep neural network techniques and adaptive fusion strategies across multiple modalities, including RGB, optical flows, audio, and depth information. Employing gating mechanisms for multimodal fusion, we aim to surpass limitations inherent in traditional unimodal recognition methods while exploring novel possibilities for diverse applications. Through an exhaustive investigation of gating mechanisms and adaptive weighting-based fusion architectures, our methodology enables the selective integration of relevant information from various modalities, thereby bolstering both accuracy and robustness in action recognition tasks. We meticulously examine various gated fusion strategies to pinpoint the most effective approach for multimodal action recognition, showcasing its superiority over conventional unimodal methods. Gating mechanisms facilitate the extraction of pivotal features, resulting in a more holistic representation of actions and substantial enhancements in recognition performance. Our evaluations across human action recognition, violence action detection, and multiple self-supervised learning tasks on benchmark datasets demonstrate promising advancements in accuracy. The significance of this research lies in its potential to revolutionize action recognition systems across diverse fields. The fusion of multimodal information promises sophisticated applications in surveillance and human-computer interaction, especially in contexts related to active assisted living.
- Abstract(参考訳): 本研究では、深層ニューラルネットワーク技術とRGB、光フロー、オーディオ、深度情報を含む複数のモードにわたる適応融合戦略を活用することにより、人間の行動認識の先駆的手法を提案する。
マルチモーダル核融合のためのゲーティング機構を応用し、多様な応用の新たな可能性を探りながら、従来の単モーダル認識法に固有の制限を克服することを目指す。
本手法は、ゲーティング機構と適応重み付けに基づく融合アーキテクチャの徹底的な研究を通じて、様々なモダリティからの関連情報の選択的統合を可能にし、アクション認識タスクにおける精度と堅牢性を促進させる。
本研究は,多モーダル動作認識における最も効果的なアプローチを見極めるために,様々なゲート融合戦略を慎重に検討し,従来手法よりも優れていることを示す。
ゲーティング機構は、重要な特徴の抽出を促進するため、アクションをより包括的に表現し、認識性能を大幅に向上させる。
ヒトの行動認識、暴力行動検出、およびベンチマークデータセット上での複数の自己教師型学習タスクに対する評価は、精度の有望な進歩を示す。
この研究の意義は、様々な分野にわたる行動認識システムに革命をもたらす可能性にある。
マルチモーダル情報の融合は、監視や人間とコンピュータの相互作用、特にアクティブな補助生活に関連する文脈における高度な応用を約束する。
関連論文リスト
- Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence [12.09002670544188]
脳は逆効果現象を呈し、弱く、より強い多感的な統合効果をもたらす。
この生物学的メカニズムに着想を得て,逆効果駆動型マルチモーダル融合(IEMF)戦略を提案する。
この戦略をニューラルネットワークに組み込むことで、モデル性能の向上と計算効率の向上により、より効率的な統合を実現する。
論文 参考訳(メタデータ) (2025-05-15T11:08:50Z) - Process Optimization and Deployment for Sensor-Based Human Activity Recognition Based on Deep Learning [9.445469731895505]
本稿では,マルチアテンションインタラクションを中心とした包括的な最適化プロセスを提案する。
我々は、アブレーション研究、関連する作業の比較、組み込みデプロイメントを含む3つの公開データセットで広範なテストを行います。
論文 参考訳(メタデータ) (2025-03-22T16:48:16Z) - A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion [3.1409950035735914]
本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。
2つの公開データセット(IEMOCAPとMELD)の実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-02-12T17:07:43Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method [3.0903319879656084]
本稿では,マルチモーダル情報の融合に革命をもたらす機能アライメントに対する革新的なアプローチを提案する。
提案手法では,異なるモードをまたいだ特徴表現の遠隔的変位と拡張の新たな反復的プロセスを用いて,共有特徴空間内の一貫性のある統一表現を導出する。
論文 参考訳(メタデータ) (2023-06-29T13:49:06Z) - Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional
Emotion Recognition [38.350188118975616]
本稿では、2ストリームのオートエンコーダと、感情認識のための長期記憶からなる新しいディープニューラルネットワークアーキテクチャを提案する。
野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。
実験の結果,提案手法は最先端の認識性能を達成し,既存のスキームをはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2020-04-28T01:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。