論文の概要: Expansion-Squeeze-Excitation Fusion Network for Elderly Activity
Recognition
- arxiv url: http://arxiv.org/abs/2112.10992v1
- Date: Tue, 21 Dec 2021 05:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 23:16:56.101855
- Title: Expansion-Squeeze-Excitation Fusion Network for Elderly Activity
Recognition
- Title(参考訳): 高齢者活動認識のための拡張スキーズ励起核融合ネットワーク
- Authors: Xiangbo Shu, Jiawen Yang, Rui Yan, and Yan Song
- Abstract要約: 本研究は,高齢者の行動認識の課題に焦点をあてるものである。高齢者活動における個人行動と人間と物体の相互作用の存在による課題である。
マルチモーダル特徴を意図的に融合させることにより,RGBビデオとスケルトンシーケンスの両方からの動作と相互作用の識別情報を効果的に集約する。
そこで本研究では,高齢者の行動認識の課題を効果的に解決するための新しい拡張・スキーゼ・励起核融合ネットワーク(ESE-FN)を提案する。
- 参考スコア(独自算出の注目度): 36.99878611775711
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work focuses on the task of elderly activity recognition, which is a
challenging task due to the existence of individual actions and human-object
interactions in elderly activities. Thus, we attempt to effectively aggregate
the discriminative information of actions and interactions from both RGB videos
and skeleton sequences by attentively fusing multi-modal features. Recently,
some nonlinear multi-modal fusion approaches are proposed by utilizing
nonlinear attention mechanism that is extended from Squeeze-and-Excitation
Networks (SENet). Inspired by this, we propose a novel
Expansion-Squeeze-Excitation Fusion Network (ESE-FN) to effectively address the
problem of elderly activity recognition, which learns modal and channel-wise
Expansion-Squeeze-Excitation (ESE) attentions for attentively fusing the
multi-modal features in the modal and channel-wise ways. Furthermore, we design
a new Multi-modal Loss (ML) to keep the consistency between the single-modal
features and the fused multi-modal features by adding the penalty of difference
between the minimum prediction losses on single modalities and the prediction
loss on the fused modality. Finally, we conduct experiments on a largest-scale
elderly activity dataset, i.e., ETRI-Activity3D (including 110,000+ videos, and
50+ categories), to demonstrate that the proposed ESE-FN achieves the best
accuracy compared with the state-of-the-art methods. In addition, more
extensive experimental results show that the proposed ESE-FN is also comparable
to the other methods in terms of normal action recognition task.
- Abstract(参考訳): 本研究は,高齢者の行動認識の課題に焦点をあて,高齢者の行動における個人行動と対象間相互作用の存在による課題である。
そこで本研究では,マルチモーダル特徴に着目して,rgbビデオとスケルトンシーケンスの動作と相互作用の識別情報を効果的に集約することを試みる。
近年,Squeeze-and-Excitation Networks (SENet) から拡張された非線形注意機構を利用して,非線形多モード融合手法を提案する。
そこで本研究では,高齢者の行動認識の課題を効果的に解決する新しい拡張・スキーゼ・興奮統合ネットワーク (ESE-FN) を提案し,モーダル・チャンネル・ワイドなマルチモーダルな特徴を意図的に融合させるため,モーダル・チャンネルワイドな拡張・スキーゼ・興奮(ESE)の注意を学習する。
さらに,単一モダリティにおける最小予測損失と融合モダリティにおける予測損失との差分を加算することにより,単一モダリティ特徴と融合モダリティ特徴との整合性を維持するために,新たなマルチモーダル損失(ML)を設計する。
最後に,ETRI-Activity3D(110,000以上のビデオと50以上のカテゴリを含む)を含む大規模高齢者活動データセットの実験を行い,提案したESE-FNが最先端の手法と比較して最も精度が高いことを示す。
さらに、より広範な実験結果から、ESE-FNは通常の行動認識タスクにおいて他の手法と同等であることが示された。
関連論文リスト
- LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning [29.237813880311943]
本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T09:18:38Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。