Fugu-MT 論文翻訳(概要): EmbraceNet for Activity: A Deep Multimodal Fusion Architecture for Activity Recognition

論文の概要: EmbraceNet for Activity: A Deep Multimodal Fusion Architecture for Activity Recognition

arxiv url: http://arxiv.org/abs/2004.13918v1
Date: Wed, 29 Apr 2020 01:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 13:17:02.767089
Title: EmbraceNet for Activity: A Deep Multimodal Fusion Architecture for Activity Recognition
Title（参考訳）: EmbraceNet for Activity: アクティビティ認識のための深いマルチモーダル融合アーキテクチャ
Authors: Jun-Ho Choi, Jong-Seok Lee
Abstract要約: 本稿では,最近提案されたEmbraceNetという機能融合アーキテクチャに基づく,アクティビティ認識のための深層マルチモーダル融合モデルを提案する。我々のモデルは、各センサデータを独立に処理し、EmbraceNetアーキテクチャと機能を結合し、融合した機能を後処理してアクティビティを予測する。チーム名「Yonsei-MCML」を用いて,提案したモデルから得られた結果をSHL認識課題に提出する。
参考スコア（独自算出の注目度）: 31.19081370896609
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human activity recognition using multiple sensors is a challenging but promising task in recent decades. In this paper, we propose a deep multimodal fusion model for activity recognition based on the recently proposed feature fusion architecture named EmbraceNet. Our model processes each sensor data independently, combines the features with the EmbraceNet architecture, and post-processes the fused feature to predict the activity. In addition, we propose additional processes to boost the performance of our model. We submit the results obtained from our proposed model to the SHL recognition challenge with the team name "Yonsei-MCML."
Abstract（参考訳）: 複数のセンサーを用いた人間の行動認識は、ここ数十年で難しいが有望な課題だ。本稿では,最近提案されたEmbraceNetという機能融合アーキテクチャに基づく,アクティビティ認識のための深層マルチモーダル融合モデルを提案する。当社のモデルでは,各センサデータを独立して処理し,機能とacceptnetアーキテクチャを組み合わせることで,融合した機能を処理してアクティビティを予測する。さらに,モデルの性能を向上させるためのプロセスも提案する。提案したモデルから得られた結果を,チーム名「Yonsei-MCML」を用いてSHL認識課題に提出する。

関連論文リスト

Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文参考訳（メタデータ） (2025-04-03T05:23:08Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文参考訳（メタデータ） (2024-12-14T06:33:53Z)
MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文参考訳（メタデータ） (2024-10-15T00:52:16Z)
Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case [8.26451988845854]
本研究では,人間の行動認識(HAR)に骨格と視覚的手がかりをベースとした新しいアプローチを提案する。特徴表現を最適化するために,スケルトンモダリティを条件とした言語モデルに対して学習可能なプロンプトを用いる。建設現場における実世界のロボット応用に適した新しいデータセットを導入し,視覚,骨格,深度データモダリティを特徴とする。
論文参考訳（メタデータ） (2024-10-02T19:10:23Z)
COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models [14.130327598928778]
大規模言語モデル (LLMs) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を提案する。我々のフレームワークは、現実的で多様な協調的な人間-オブジェクト-ヒューマンインタラクションを生成し、最先端の手法より優れています。我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。
論文参考訳（メタデータ） (2024-09-30T17:02:13Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。マルチリニア演算子のみに依存するMONetを提案する。
論文参考訳（メタデータ） (2024-01-31T16:52:19Z)
Staged Depthwise Correlation and Feature Fusion for Siamese Object Tracking [0.6827423171182154]
視覚的トラッキングのための特徴抽出をさらに最適化するために,DCFFNet という新たな段階的深度相関と特徴融合ネットワークを提案する。シアムネットワークアーキテクチャに基づいてディープトラッカーを構築しており、複数の大規模データセットでゼロからトレーニングされたオフラインです。 OTB100,VOT2018,LaSOTなど,一般的なベンチマークにトラッカーを実装した。
論文参考訳（メタデータ） (2023-10-15T06:04:42Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T05:27:28Z)
Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文参考訳（メタデータ） (2021-09-01T14:45:16Z)
Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。 JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文参考訳（メタデータ） (2020-10-16T04:43:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。