論文の概要: Expansion-Squeeze-Excitation Fusion Network for Elderly Activity
Recognition
- arxiv url: http://arxiv.org/abs/2112.10992v1
- Date: Tue, 21 Dec 2021 05:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 23:16:56.101855
- Title: Expansion-Squeeze-Excitation Fusion Network for Elderly Activity
Recognition
- Title(参考訳): 高齢者活動認識のための拡張スキーズ励起核融合ネットワーク
- Authors: Xiangbo Shu, Jiawen Yang, Rui Yan, and Yan Song
- Abstract要約: 本研究は,高齢者の行動認識の課題に焦点をあてるものである。高齢者活動における個人行動と人間と物体の相互作用の存在による課題である。
マルチモーダル特徴を意図的に融合させることにより,RGBビデオとスケルトンシーケンスの両方からの動作と相互作用の識別情報を効果的に集約する。
そこで本研究では,高齢者の行動認識の課題を効果的に解決するための新しい拡張・スキーゼ・励起核融合ネットワーク(ESE-FN)を提案する。
- 参考スコア(独自算出の注目度): 36.99878611775711
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work focuses on the task of elderly activity recognition, which is a
challenging task due to the existence of individual actions and human-object
interactions in elderly activities. Thus, we attempt to effectively aggregate
the discriminative information of actions and interactions from both RGB videos
and skeleton sequences by attentively fusing multi-modal features. Recently,
some nonlinear multi-modal fusion approaches are proposed by utilizing
nonlinear attention mechanism that is extended from Squeeze-and-Excitation
Networks (SENet). Inspired by this, we propose a novel
Expansion-Squeeze-Excitation Fusion Network (ESE-FN) to effectively address the
problem of elderly activity recognition, which learns modal and channel-wise
Expansion-Squeeze-Excitation (ESE) attentions for attentively fusing the
multi-modal features in the modal and channel-wise ways. Furthermore, we design
a new Multi-modal Loss (ML) to keep the consistency between the single-modal
features and the fused multi-modal features by adding the penalty of difference
between the minimum prediction losses on single modalities and the prediction
loss on the fused modality. Finally, we conduct experiments on a largest-scale
elderly activity dataset, i.e., ETRI-Activity3D (including 110,000+ videos, and
50+ categories), to demonstrate that the proposed ESE-FN achieves the best
accuracy compared with the state-of-the-art methods. In addition, more
extensive experimental results show that the proposed ESE-FN is also comparable
to the other methods in terms of normal action recognition task.
- Abstract(参考訳): 本研究は,高齢者の行動認識の課題に焦点をあて,高齢者の行動における個人行動と対象間相互作用の存在による課題である。
そこで本研究では,マルチモーダル特徴に着目して,rgbビデオとスケルトンシーケンスの動作と相互作用の識別情報を効果的に集約することを試みる。
近年,Squeeze-and-Excitation Networks (SENet) から拡張された非線形注意機構を利用して,非線形多モード融合手法を提案する。
そこで本研究では,高齢者の行動認識の課題を効果的に解決する新しい拡張・スキーゼ・興奮統合ネットワーク (ESE-FN) を提案し,モーダル・チャンネル・ワイドなマルチモーダルな特徴を意図的に融合させるため,モーダル・チャンネルワイドな拡張・スキーゼ・興奮(ESE)の注意を学習する。
さらに,単一モダリティにおける最小予測損失と融合モダリティにおける予測損失との差分を加算することにより,単一モダリティ特徴と融合モダリティ特徴との整合性を維持するために,新たなマルチモーダル損失(ML)を設計する。
最後に,ETRI-Activity3D(110,000以上のビデオと50以上のカテゴリを含む)を含む大規模高齢者活動データセットの実験を行い,提案したESE-FNが最先端の手法と比較して最も精度が高いことを示す。
さらに、より広範な実験結果から、ESE-FNは通常の行動認識タスクにおいて他の手法と同等であることが示された。
関連論文リスト
- Distribution-Level Memory Recall for Continual Learning: Preserving Knowledge and Avoiding Confusion [16.048033746416476]
継続学習(CL)は、DNNが学習した知識を忘れずに新しいデータを学習できるようにすることを目的としている。
この目標を達成するための鍵は、機能レベルでの混乱を避け、古いタスクと新しいタスクと古いタスクの混同を避けることである。
従来のプロトタイプベースCL法は,ガウスノイズを古いクラスのセントロイドに付加することにより,古い知識再生のための擬似特徴を生成する。
本稿では,ガウス混合モデルを用いて,従来の知識の特徴分布に正確に適合する分散レベルメモリリコール法を提案する。
論文 参考訳(メタデータ) (2024-08-04T07:37:12Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。