論文の概要: An Evolutionary Network Architecture Search Framework with Adaptive Multimodal Fusion for Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2403.18208v1
- Date: Wed, 27 Mar 2024 02:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:36:01.787356
- Title: An Evolutionary Network Architecture Search Framework with Adaptive Multimodal Fusion for Hand Gesture Recognition
- Title(参考訳): ハンドジェスチャ認識のための適応型マルチモーダルフュージョンを用いた進化的ネットワークアーキテクチャ検索フレームワーク
- Authors: Yizhang Xia, Shihao Song, Zhanglu Hou, Junwen Xu, Juan Zou, Yuan Liu, Shengxiang Yang,
- Abstract要約: 適応型マルチモデル融合(AMF-ENAS)を用いた進化的ネットワークアーキテクチャ探索フレームワークを提案する。
AMF-ENASは、Ninapro DB2、DB3、DB7データセットの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 5.001653808609435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand gesture recognition (HGR) based on multimodal data has attracted considerable attention owing to its great potential in applications. Various manually designed multimodal deep networks have performed well in multimodal HGR (MHGR), but most of existing algorithms require a lot of expert experience and time-consuming manual trials. To address these issues, we propose an evolutionary network architecture search framework with the adaptive multimodel fusion (AMF-ENAS). Specifically, we design an encoding space that simultaneously considers fusion positions and ratios of the multimodal data, allowing for the automatic construction of multimodal networks with different architectures through decoding. Additionally, we consider three input streams corresponding to intra-modal surface electromyography (sEMG), intra-modal accelerometer (ACC), and inter-modal sEMG-ACC. To automatically adapt to various datasets, the ENAS framework is designed to automatically search a MHGR network with appropriate fusion positions and ratios. To the best of our knowledge, this is the first time that ENAS has been utilized in MHGR to tackle issues related to the fusion position and ratio of multimodal data. Experimental results demonstrate that AMF-ENAS achieves state-of-the-art performance on the Ninapro DB2, DB3, and DB7 datasets.
- Abstract(参考訳): マルチモーダルデータに基づくハンドジェスチャ認識(HGR)は,アプリケーションの大きな可能性から注目されている。
様々な手動設計のマルチモーダルディープネットワークはマルチモーダルHGR(MHGR)でよく機能しているが、既存のアルゴリズムの多くは多くの専門家の経験と時間を要する。
これらの問題に対処するために,適応型マルチモデル融合(AMF-ENAS)を用いた進化的ネットワークアーキテクチャ探索フレームワークを提案する。
具体的には,マルチモーダルデータの融合位置と比を同時に考慮した符号化空間を設計し,デコードにより異なるアーキテクチャによるマルチモーダルネットワークの自動構築を可能にする。
また,SEMG (Intra-modal surface Electromyography),ACC (Intra-modal accelerometer),ACC (Inter-modal sEMG-ACC) に対応する3つの入力ストリームについて検討した。
ENASフレームワークは、様々なデータセットに自動的に適応するために、適切な融合位置と比率を持つMHGRネットワークを自動的に検索するように設計されている。
我々の知る限り、ENASがMHGRで活用されたのは、マルチモーダルデータの融合位置と比に関する問題に対処するためである。
実験により、AMF-ENASはNinapro DB2、DB3、DB7データセット上で最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - A Pairwise Comparison Relation-assisted Multi-objective Evolutionary Neural Architecture Search Method with Multi-population Mechanism [58.855741970337675]
ニューラルアーキテクチャサーチ(NAS)により、リサーチ者は広大なサーチスペースを自動的に探索し、効率的なニューラルネットワークを見つけることができる。
NASは重要なボトルネックに悩まされており、探索プロセス中に多くのアーキテクチャを評価する必要がある。
SMEM-NASは,多集団構造に基づく多目的進化アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-22T12:46:22Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions [14.700807572189412]
本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
論文 参考訳(メタデータ) (2021-07-24T11:33:37Z) - BM-NAS: Bilevel Multimodal Neural Architecture Search [30.472605201814428]
本稿では,Bilevel Multimodal Neural Architecture Search (BM-NAS)フレームワークを提案する。
マルチモーダル融合モデルのアーキテクチャを2レベル探索方式で完全に検索可能にします。
BM-NASは探索時間が少なく、モデルパラメータも少ない競争性能を実現している。
論文 参考訳(メタデータ) (2021-04-19T15:09:49Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - AutoPose: Searching Multi-Scale Branch Aggregation for Pose Estimation [96.29533512606078]
本稿では,新しいニューラルアーキテクチャサーチ(NAS)フレームワークであるAutoPoseを紹介する。
高精度で高解像度な2次元ポーズ推定に向けて、クロススケール接続の複数の並列ブランチを自動的に検出することができる。
論文 参考訳(メタデータ) (2020-08-16T22:27:43Z) - NAS-Count: Counting-by-Density with Neural Architecture Search [74.92941571724525]
ニューラルアーキテクチャサーチ(NAS)を用いたカウントモデルの設計を自動化する
エンド・ツー・エンドの検索エンコーダ・デコーダアーキテクチャであるAutomatic Multi-Scale Network(AMSNet)を導入する。
論文 参考訳(メタデータ) (2020-02-29T09:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。