論文の概要: EmbraceNet for Activity: A Deep Multimodal Fusion Architecture for
Activity Recognition
- arxiv url: http://arxiv.org/abs/2004.13918v1
- Date: Wed, 29 Apr 2020 01:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:17:02.767089
- Title: EmbraceNet for Activity: A Deep Multimodal Fusion Architecture for
Activity Recognition
- Title(参考訳): EmbraceNet for Activity: アクティビティ認識のための深いマルチモーダル融合アーキテクチャ
- Authors: Jun-Ho Choi, Jong-Seok Lee
- Abstract要約: 本稿では,最近提案されたEmbraceNetという機能融合アーキテクチャに基づく,アクティビティ認識のための深層マルチモーダル融合モデルを提案する。
我々のモデルは、各センサデータを独立に処理し、EmbraceNetアーキテクチャと機能を結合し、融合した機能を後処理してアクティビティを予測する。
チーム名「Yonsei-MCML」を用いて,提案したモデルから得られた結果をSHL認識課題に提出する。
- 参考スコア(独自算出の注目度): 31.19081370896609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activity recognition using multiple sensors is a challenging but
promising task in recent decades. In this paper, we propose a deep multimodal
fusion model for activity recognition based on the recently proposed feature
fusion architecture named EmbraceNet. Our model processes each sensor data
independently, combines the features with the EmbraceNet architecture, and
post-processes the fused feature to predict the activity. In addition, we
propose additional processes to boost the performance of our model. We submit
the results obtained from our proposed model to the SHL recognition challenge
with the team name "Yonsei-MCML."
- Abstract(参考訳): 複数のセンサーを用いた人間の行動認識は、ここ数十年で難しいが有望な課題だ。
本稿では,最近提案されたEmbraceNetという機能融合アーキテクチャに基づく,アクティビティ認識のための深層マルチモーダル融合モデルを提案する。
当社のモデルでは,各センサデータを独立して処理し,機能とacceptnetアーキテクチャを組み合わせることで,融合した機能を処理してアクティビティを予測する。
さらに,モデルの性能を向上させるためのプロセスも提案する。
提案したモデルから得られた結果を,チーム名「Yonsei-MCML」を用いてSHL認識課題に提出する。
関連論文リスト
- MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case [8.26451988845854]
本研究では,人間の行動認識(HAR)に骨格と視覚的手がかりをベースとした新しいアプローチを提案する。
特徴表現を最適化するために,スケルトンモダリティを条件とした言語モデルに対して学習可能なプロンプトを用いる。
建設現場における実世界のロボット応用に適した新しいデータセットを導入し,視覚,骨格,深度データモダリティを特徴とする。
論文 参考訳(メタデータ) (2024-10-02T19:10:23Z) - COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models [14.130327598928778]
大規模言語モデル (LLMs) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を提案する。
我々のフレームワークは、現実的で多様な協調的な人間-オブジェクト-ヒューマンインタラクションを生成し、最先端の手法より優れています。
我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2024-09-30T17:02:13Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。
マルチリニア演算子のみに依存するMONetを提案する。
論文 参考訳(メタデータ) (2024-01-31T16:52:19Z) - Staged Depthwise Correlation and Feature Fusion for Siamese Object
Tracking [0.6827423171182154]
視覚的トラッキングのための特徴抽出をさらに最適化するために,DCFFNet という新たな段階的深度相関と特徴融合ネットワークを提案する。
シアムネットワークアーキテクチャに基づいてディープトラッカーを構築しており、複数の大規模データセットでゼロからトレーニングされたオフラインです。
OTB100,VOT2018,LaSOTなど,一般的なベンチマークにトラッカーを実装した。
論文 参考訳(メタデータ) (2023-10-15T06:04:42Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。