Fugu-MT 論文翻訳(概要): Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection

論文の概要: Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection

arxiv url: http://arxiv.org/abs/2407.01894v2
Date: Mon, 8 Jul 2024 08:50:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 00:40:30.961331
Title: Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection
Title（参考訳）: 脳-ye-Computerを用いたDimオブジェクト検出のための適応的モダリティバランスオンライン知識蒸留法
Authors: Zixing Li, Chao Yan, Zhen Lan, Xiaojia Xiang, Han Zhou, Jun Lai, Dengqing Tang,
Abstract要約: 本稿では,脳-眼-コンピュータによる空中画像検出システムを構築した。脳波画像データを用いた適応型モダリティバランスオンライン知識蒸留法(AMBOKD)を提案する。実世界のシナリオにおける公開データセットとシステム検証実験により,本手法の有効性と優位性を実証した。
参考スコア（独自算出の注目度）: 7.135000735428783
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advanced cognition can be extracted from the human brain using brain-computer interfaces. Integrating these interfaces with computer vision techniques, which possess efficient feature extraction capabilities, can achieve more robust and accurate detection of dim targets in aerial images. However, existing target detection methods primarily concentrate on homogeneous data, lacking efficient and versatile processing capabilities for heterogeneous multimodal data. In this paper, we first build a brain-eye-computer based object detection system for aerial images under few-shot conditions. This system detects suspicious targets using region proposal networks, evokes the event-related potential (ERP) signal in electroencephalogram (EEG) through the eye-tracking-based slow serial visual presentation (ESSVP) paradigm, and constructs the EEG-image data pairs with eye movement data. Then, an adaptive modality balanced online knowledge distillation (AMBOKD) method is proposed to recognize dim objects with the EEG-image data. AMBOKD fuses EEG and image features using a multi-head attention module, establishing a new modality with comprehensive features. To enhance the performance and robust capability of the fusion modality, simultaneous training and mutual learning between modalities are enabled by end-to-end online knowledge distillation. During the learning process, an adaptive modality balancing module is proposed to ensure multimodal equilibrium by dynamically adjusting the weights of the importance and the training gradients across various modalities. The effectiveness and superiority of our method are demonstrated by comparing it with existing state-of-the-art methods. Additionally, experiments conducted on public datasets and system validations in real-world scenarios demonstrate the reliability and practicality of the proposed system and the designed method.
Abstract（参考訳）: 高度な認知は、脳とコンピュータのインタフェースを用いてヒトの脳から抽出することができる。これらのインターフェースを効率的な特徴抽出能力を持つコンピュータビジョン技術と統合することで、より堅牢で正確な航空機画像のターゲット検出を実現することができる。しかし、既存のターゲット検出手法は主に同種データに焦点を合わせ、異種マルチモーダルデータに対する効率的で汎用的な処理能力に欠ける。本稿では,まず,数発の撮影条件下での空中画像のための脳-眼-コンピュータによる物体検出システムを構築する。本システムは,脳波における事象関連電位(ERP)信号を,視線追跡に基づくスローシリアル視覚提示(ESSVP)パラダイムを用いて検出し,眼球運動データと組み合わせて脳波画像データを構築する。適応型モダリティバランスオンライン知識蒸留法(AMBOKD)を提案する。 AMBOKDはマルチヘッドアテンションモジュールを使用して脳波と画像特徴を融合させ、包括的な機能を備えた新しいモダリティを確立する。融合モダリティの性能と堅牢性を高めるため、エンド・ツー・エンドのオンライン知識蒸留により、モダリティ間の同時学習と相互学習が可能となる。学習過程において, 重要度の重み付けを動的に調整し, 多モード平衡を確保するために, 適応的モダリティバランスモジュールを提案する。本手法の有効性と優位性は,既存の最先端手法と比較することによって実証した。さらに、実際のシナリオにおける公開データセットとシステム検証実験により、提案システムと設計手法の信頼性と実用性を示す。

関連論文リスト

Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques [91.26187560114381]
特徴マッチングはコンピュータビジョンにおける基礎的な課題であり、画像検索、ステレオマッチング、3D再構成、SLAMなどのアプリケーションに必須である。本調査は,モダリティに基づく特徴マッチングを包括的にレビューし,従来の手作り手法と現代のディープラーニングアプローチについて検討する。
論文参考訳（メタデータ） (2025-07-30T15:56:36Z)
CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文参考訳（メタデータ） (2025-06-19T06:31:08Z)
CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文参考訳（メタデータ） (2024-12-13T16:27:54Z)
EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文参考訳（メタデータ） (2024-10-29T01:35:17Z)
SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文参考訳（メタデータ） (2024-10-15T07:26:39Z)
Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文参考訳（メタデータ） (2024-07-09T07:53:16Z)
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文参考訳（メタデータ） (2024-03-23T22:32:06Z)
Effective Intrusion Detection in Heterogeneous Internet-of-Things Networks via Ensemble Knowledge Distillation-based Federated Learning [52.6706505729803]
我々は、分散化された侵入検知システムの共有モデル(IDS)を協調訓練するために、フェデレートラーニング(FL)を導入する。 FLEKDは従来のモデル融合法よりも柔軟な凝集法を実現する。実験の結果,提案手法は,速度と性能の両面で,局所訓練と従来のFLよりも優れていた。
論文参考訳（メタデータ） (2024-01-22T14:16:37Z)
EEGFormer: Towards Transferable and Interpretable Large-Scale EEG Foundation Model [39.363511340878624]
大規模複合脳波データに基づいて事前学習した脳波基礎モデル,すなわちEEGFormerを提案する。本モデルの有効性を検証するため,様々な下流タスクにおいて広範囲に評価し,異なる転送条件下での性能を評価する。
論文参考訳（メタデータ） (2024-01-11T17:36:24Z)
Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-18T09:52:14Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
A Novel TSK Fuzzy System Incorporating Multi-view Collaborative Transfer Learning for Personalized Epileptic EEG Detection [20.11589208667256]
マルチビュー協調移動学習を統合したTSKファジィシステムに基づくてんかん検出アルゴリズムを提案する。提案手法はてんかん性脳波を効果的に検出する能力を有する。
論文参考訳（メタデータ） (2021-11-11T12:15:55Z)
Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。 SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文参考訳（メタデータ） (2020-09-01T03:38:31Z)
Modality Compensation Network: Cross-Modal Adaptation for Action Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-01-31T04:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。