論文の概要: Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection
- arxiv url: http://arxiv.org/abs/2509.03872v1
- Date: Thu, 04 Sep 2025 04:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.046323
- Title: Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection
- Title(参考訳): 動きによるフォーカス:効率的な物体検出のためのRGBイベント協調トークンスペーシング
- Authors: Nan Yang, Yang Wang, Zhanwen Liu, Yuchao Dai, Yang Liu, Xiangmo Zhao,
- Abstract要約: 既存のRGBイベント検出手法は、特徴抽出と融合の間、両方のモダリティの低情報領域を均一に処理する。
マルチモーダル特徴の適応的コラボレーティブスカラー化を行うFocusMambaを提案する。
DSEC-Det と PKU-DAVIS-SOD データセットを用いた実験により,提案手法は精度と効率の両方において優れた性能が得られることを示した。
- 参考スコア(独自算出の注目度): 56.88160531995454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGB-Event detection methods process the low-information regions of both modalities (background in images and non-event regions in event data) uniformly during feature extraction and fusion, resulting in high computational costs and suboptimal performance. To mitigate the computational redundancy during feature extraction, researchers have respectively proposed token sparsification methods for the image and event modalities. However, these methods employ a fixed number or threshold for token selection, hindering the retention of informative tokens for samples with varying complexity. To achieve a better balance between accuracy and efficiency, we propose FocusMamba, which performs adaptive collaborative sparsification of multimodal features and efficiently integrates complementary information. Specifically, an Event-Guided Multimodal Sparsification (EGMS) strategy is designed to identify and adaptively discard low-information regions within each modality by leveraging scene content changes perceived by the event camera. Based on the sparsification results, a Cross-Modality Focus Fusion (CMFF) module is proposed to effectively capture and integrate complementary features from both modalities. Experiments on the DSEC-Det and PKU-DAVIS-SOD datasets demonstrate that the proposed method achieves superior performance in both accuracy and efficiency compared to existing methods. The code will be available at https://github.com/Zizzzzzzz/FocusMamba.
- Abstract(参考訳): 既存のRGB-Event検出手法は、特徴抽出と融合中に、両方のモダリティ(画像の背景とイベントデータの非イベント領域)の低情報領域を均一に処理し、高い計算コストと準性能をもたらす。
特徴抽出における計算冗長性を緩和するため、研究者らはそれぞれ、画像と事象のモダリティに対するトークンスペーサー化手法を提案している。
しかし、これらの手法はトークン選択に固定数またはしきい値を使用し、複雑さの異なるサンプルに対する情報トークンの保持を妨げている。
精度と効率のバランスを改善するために,マルチモーダル特徴を適応的に協調的に分割し,補完情報を効率的に統合するFocusMambaを提案する。
具体的には、イベントカメラによって認識されるシーン内容の変化を利用して、各モード内の低情報領域を特定し、適応的に破棄するイベントガイド型マルチモーダルスカラー化(EGMS)戦略を設計する。
このスペーシフィケーション結果に基づいて,両モードの相補的特徴を効果的に捕捉・統合するために,Cross-Modality Focus Fusion (CMFF) モジュールを提案する。
DSEC-Det と PKU-DAVIS-SOD データセットを用いた実験により,提案手法は既存手法と比較して精度と効率の両面で優れた性能を示した。
コードはhttps://github.com/Zizzzzzzz/FocusMamba.comで入手できる。
関連論文リスト
- EIFNet: Leveraging Event-Image Fusion for Robust Semantic Segmentation [0.18416014644193066]
イベントカメラは、高ダイナミックレンジと微妙な時間分解能を提供し、挑戦的な環境で堅牢なシーン理解を実現する。
イベントとフレームベースの入力の長所を組み合わせたマルチモーダル融合ネットワーク EIFNet を提案する。
EIFNetは最先端のパフォーマンスを実現し、イベントベースのセマンティックセグメンテーションの有効性を示す。
論文 参考訳(メタデータ) (2025-07-29T16:19:55Z) - EDM: Efficient Deep Feature Matching [8.107498154867178]
本稿では,効率的なDeep機能マッチングネットワーク,EDMを提案する。
まず、より少ない次元のより深いCNNを採用し、マルチレベルの特徴を抽出する。
次に,高レベルの深い特徴に対して特徴変換を行う相関注入モジュールを提案する。
改良段階において、軽量な双方向軸ベース回帰ヘッドは、潜在特徴からサブピクセルレベルの対応を直接予測するように設計されている。
論文 参考訳(メタデータ) (2025-03-07T03:47:30Z) - Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation [47.75348821902489]
現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-01T13:40:09Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。