Fugu-MT 論文翻訳(概要): Expansion-Squeeze-Excitation Fusion Network for Elderly Activity Recognition

論文の概要: Expansion-Squeeze-Excitation Fusion Network for Elderly Activity Recognition

arxiv url: http://arxiv.org/abs/2112.10992v1
Date: Tue, 21 Dec 2021 05:31:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-22 23:16:56.101855
Title: Expansion-Squeeze-Excitation Fusion Network for Elderly Activity Recognition
Title（参考訳）: 高齢者活動認識のための拡張スキーズ励起核融合ネットワーク
Authors: Xiangbo Shu, Jiawen Yang, Rui Yan, and Yan Song
Abstract要約: 本研究は,高齢者の行動認識の課題に焦点をあてるものである。高齢者活動における個人行動と人間と物体の相互作用の存在による課題である。マルチモーダル特徴を意図的に融合させることにより,RGBビデオとスケルトンシーケンスの両方からの動作と相互作用の識別情報を効果的に集約する。そこで本研究では,高齢者の行動認識の課題を効果的に解決するための新しい拡張・スキーゼ・励起核融合ネットワーク(ESE-FN)を提案する。
参考スコア（独自算出の注目度）: 36.99878611775711
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This work focuses on the task of elderly activity recognition, which is a challenging task due to the existence of individual actions and human-object interactions in elderly activities. Thus, we attempt to effectively aggregate the discriminative information of actions and interactions from both RGB videos and skeleton sequences by attentively fusing multi-modal features. Recently, some nonlinear multi-modal fusion approaches are proposed by utilizing nonlinear attention mechanism that is extended from Squeeze-and-Excitation Networks (SENet). Inspired by this, we propose a novel Expansion-Squeeze-Excitation Fusion Network (ESE-FN) to effectively address the problem of elderly activity recognition, which learns modal and channel-wise Expansion-Squeeze-Excitation (ESE) attentions for attentively fusing the multi-modal features in the modal and channel-wise ways. Furthermore, we design a new Multi-modal Loss (ML) to keep the consistency between the single-modal features and the fused multi-modal features by adding the penalty of difference between the minimum prediction losses on single modalities and the prediction loss on the fused modality. Finally, we conduct experiments on a largest-scale elderly activity dataset, i.e., ETRI-Activity3D (including 110,000+ videos, and 50+ categories), to demonstrate that the proposed ESE-FN achieves the best accuracy compared with the state-of-the-art methods. In addition, more extensive experimental results show that the proposed ESE-FN is also comparable to the other methods in terms of normal action recognition task.
Abstract（参考訳）: 本研究は,高齢者の行動認識の課題に焦点をあて,高齢者の行動における個人行動と対象間相互作用の存在による課題である。そこで本研究では,マルチモーダル特徴に着目して,rgbビデオとスケルトンシーケンスの動作と相互作用の識別情報を効果的に集約することを試みる。近年,Squeeze-and-Excitation Networks (SENet) から拡張された非線形注意機構を利用して,非線形多モード融合手法を提案する。そこで本研究では,高齢者の行動認識の課題を効果的に解決する新しい拡張・スキーゼ・興奮統合ネットワーク (ESE-FN) を提案し,モーダル・チャンネル・ワイドなマルチモーダルな特徴を意図的に融合させるため,モーダル・チャンネルワイドな拡張・スキーゼ・興奮(ESE)の注意を学習する。さらに,単一モダリティにおける最小予測損失と融合モダリティにおける予測損失との差分を加算することにより,単一モダリティ特徴と融合モダリティ特徴との整合性を維持するために,新たなマルチモーダル損失(ML)を設計する。最後に,ETRI-Activity3D(110,000以上のビデオと50以上のカテゴリを含む)を含む大規模高齢者活動データセットの実験を行い,提案したESE-FNが最先端の手法と比較して最も精度が高いことを示す。さらに、より広範な実験結果から、ESE-FNは通常の行動認識タスクにおいて他の手法と同等であることが示された。

関連論文リスト

ADMC: Attention-based Diffusion Model for Missing Modalities Feature Completion [25.1725138364452]
注意に基づく障害特徴補完(ADMC)のための拡散モデルを提案する。本フレームワークは,各モダリティに対する特徴抽出ネットワークを独立に訓練し,その特性を保ち,オーバーカップリングを回避する。提案手法は,IEMOCAPおよびMIntRecベンチマークの最先端結果を実現し,欠落シナリオと完全モダリティシナリオの両方において,その有効性を示す。
論文参考訳（メタデータ） (2025-07-08T03:08:52Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Multi-level and Multi-modal Action Anticipation [12.921307214813357]
アクション予測(Action Precipation)は、部分的に観察されたビデオから将来のアクションを予測するタスクであり、インテリジェントなシステムの進化に不可欠である。我々は,新しいマルチモーダルアクション予測手法であるtextitMulti レベルと Multi-modal Action Precipation (m&m-Ant) を導入する。 Breakfast、50 Salads、DARaiなど、広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2025-06-03T02:39:33Z)
Self-Controlled Dynamic Expansion Model for Continual Learning [10.447232167638816]
本稿では, 自己制御型動的拡張モデル(SCDEM)を提案する。 SCDEMは複数のトレーニング可能なトレーニング済みのViTバックボーンを編成し、多様で意味的に豊かな表現を提供する。提案手法の有効性を評価するため,幅広い実験が実施されている。
論文参考訳（メタデータ） (2025-04-14T15:22:51Z)
Enhanced Multi-Scale Cross-Attention for Person Image Generation [140.90068397518655]
課題のある人物画像生成タスクに対して,新たにGAN(cross-attention-based generative adversarial network)を提案する。クロスアテンション(Cross-attention)は、異なるモードの2つの特徴写像間で注意/相関行列を計算する、新しく直感的なマルチモーダル融合法である。異なる段階における外観・形状特徴を効果的に融合させるために, 密結合型コアテンションモジュールを新たに導入する。
論文参考訳（メタデータ） (2025-01-15T16:08:25Z)
Distribution-Level Memory Recall for Continual Learning: Preserving Knowledge and Avoiding Confusion [16.048033746416476]
継続学習(CL)は、DNNが学習した知識を忘れずに新しいデータを学習できるようにすることを目的としている。この目標を達成するための鍵は、機能レベルでの混乱を避け、古いタスクと新しいタスクと古いタスクの混同を避けることである。従来のプロトタイプベースCL法は,ガウスノイズを古いクラスのセントロイドに付加することにより,古い知識再生のための擬似特徴を生成する。本稿では,ガウス混合モデルを用いて,従来の知識の特徴分布に正確に適合する分散レベルメモリリコール法を提案する。
論文参考訳（メタデータ） (2024-08-04T07:37:12Z)
Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文参考訳（メタデータ） (2024-07-06T04:36:48Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文参考訳（メタデータ） (2023-09-12T14:22:22Z)
Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文参考訳（メタデータ） (2022-11-27T14:46:01Z)
Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文参考訳（メタデータ） (2022-09-19T15:01:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。