論文の概要: Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection
- arxiv url: http://arxiv.org/abs/2407.01894v2
- Date: Mon, 8 Jul 2024 08:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 00:40:30.961331
- Title: Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection
- Title(参考訳): 脳-ye-Computerを用いたDimオブジェクト検出のための適応的モダリティバランスオンライン知識蒸留法
- Authors: Zixing Li, Chao Yan, Zhen Lan, Xiaojia Xiang, Han Zhou, Jun Lai, Dengqing Tang,
- Abstract要約: 本稿では,脳-眼-コンピュータによる空中画像検出システムを構築した。
脳波画像データを用いた適応型モダリティバランスオンライン知識蒸留法(AMBOKD)を提案する。
実世界のシナリオにおける公開データセットとシステム検証実験により,本手法の有効性と優位性を実証した。
- 参考スコア(独自算出の注目度): 7.135000735428783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced cognition can be extracted from the human brain using brain-computer interfaces. Integrating these interfaces with computer vision techniques, which possess efficient feature extraction capabilities, can achieve more robust and accurate detection of dim targets in aerial images. However, existing target detection methods primarily concentrate on homogeneous data, lacking efficient and versatile processing capabilities for heterogeneous multimodal data. In this paper, we first build a brain-eye-computer based object detection system for aerial images under few-shot conditions. This system detects suspicious targets using region proposal networks, evokes the event-related potential (ERP) signal in electroencephalogram (EEG) through the eye-tracking-based slow serial visual presentation (ESSVP) paradigm, and constructs the EEG-image data pairs with eye movement data. Then, an adaptive modality balanced online knowledge distillation (AMBOKD) method is proposed to recognize dim objects with the EEG-image data. AMBOKD fuses EEG and image features using a multi-head attention module, establishing a new modality with comprehensive features. To enhance the performance and robust capability of the fusion modality, simultaneous training and mutual learning between modalities are enabled by end-to-end online knowledge distillation. During the learning process, an adaptive modality balancing module is proposed to ensure multimodal equilibrium by dynamically adjusting the weights of the importance and the training gradients across various modalities. The effectiveness and superiority of our method are demonstrated by comparing it with existing state-of-the-art methods. Additionally, experiments conducted on public datasets and system validations in real-world scenarios demonstrate the reliability and practicality of the proposed system and the designed method.
- Abstract(参考訳): 高度な認知は、脳とコンピュータのインタフェースを用いてヒトの脳から抽出することができる。
これらのインターフェースを効率的な特徴抽出能力を持つコンピュータビジョン技術と統合することで、より堅牢で正確な航空機画像のターゲット検出を実現することができる。
しかし、既存のターゲット検出手法は主に同種データに焦点を合わせ、異種マルチモーダルデータに対する効率的で汎用的な処理能力に欠ける。
本稿では,まず,数発の撮影条件下での空中画像のための脳-眼-コンピュータによる物体検出システムを構築する。
本システムは,脳波における事象関連電位(ERP)信号を,視線追跡に基づくスローシリアル視覚提示(ESSVP)パラダイムを用いて検出し,眼球運動データと組み合わせて脳波画像データを構築する。
適応型モダリティバランスオンライン知識蒸留法(AMBOKD)を提案する。
AMBOKDはマルチヘッドアテンションモジュールを使用して脳波と画像特徴を融合させ、包括的な機能を備えた新しいモダリティを確立する。
融合モダリティの性能と堅牢性を高めるため、エンド・ツー・エンドのオンライン知識蒸留により、モダリティ間の同時学習と相互学習が可能となる。
学習過程において, 重要度の重み付けを動的に調整し, 多モード平衡を確保するために, 適応的モダリティバランスモジュールを提案する。
本手法の有効性と優位性は,既存の最先端手法と比較することによって実証した。
さらに、実際のシナリオにおける公開データセットとシステム検証実験により、提案システムと設計手法の信頼性と実用性を示す。
関連論文リスト
- EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。
本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文 参考訳(メタデータ) (2024-10-29T01:35:17Z) - SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文 参考訳(メタデータ) (2024-07-09T07:53:16Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Effective Intrusion Detection in Heterogeneous Internet-of-Things Networks via Ensemble Knowledge Distillation-based Federated Learning [52.6706505729803]
我々は、分散化された侵入検知システムの共有モデル(IDS)を協調訓練するために、フェデレートラーニング(FL)を導入する。
FLEKDは従来のモデル融合法よりも柔軟な凝集法を実現する。
実験の結果,提案手法は,速度と性能の両面で,局所訓練と従来のFLよりも優れていた。
論文 参考訳(メタデータ) (2024-01-22T14:16:37Z) - EEGFormer: Towards Transferable and Interpretable Large-Scale EEG
Foundation Model [39.363511340878624]
大規模複合脳波データに基づいて事前学習した脳波基礎モデル,すなわちEEGFormerを提案する。
本モデルの有効性を検証するため,様々な下流タスクにおいて広範囲に評価し,異なる転送条件下での性能を評価する。
論文 参考訳(メタデータ) (2024-01-11T17:36:24Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - A Novel TSK Fuzzy System Incorporating Multi-view Collaborative Transfer
Learning for Personalized Epileptic EEG Detection [20.11589208667256]
マルチビュー協調移動学習を統合したTSKファジィシステムに基づくてんかん検出アルゴリズムを提案する。
提案手法はてんかん性脳波を効果的に検出する能力を有する。
論文 参考訳(メタデータ) (2021-11-11T12:15:55Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。