論文の概要: Dynamic Pondering Sparsity-aware Mixture-of-Experts Transformer for Event Stream based Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2605.06112v1
- Date: Thu, 07 May 2026 12:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.764388
- Title: Dynamic Pondering Sparsity-aware Mixture-of-Experts Transformer for Event Stream based Visual Object Tracking
- Title(参考訳): イベントストリームに基づくビジュアルオブジェクト追跡のための動的ポンダリング空間認識混合変換器
- Authors: Shiao Wang, Xiao Wang, Duoqing Yang, Wenhao Zhang, Bo Jiang, Lin Zhu, Yonghong Tian, Bin Luo,
- Abstract要約: RGBベースのトラッカーは、低照度や高速モーションなどの困難な撮像条件に対して脆弱である。
イベントカメラは、ピクセルワイドの明るさ変化を捉え、高いダイナミックレンジと高時間分解能を提供することで、有望な代替手段を提供する。
複数の時間スケールにまたがるイベント密度変動を明示的にモデル化するイベント空間認識追跡フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.11576998237289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress, RGB-based trackers remain vulnerable to challenging imaging conditions, such as low illumination and fast motion. Event cameras offer a promising alternative by asynchronously capturing pixel-wise brightness changes, providing high dynamic range and high temporal resolution. However, existing event-based trackers often neglect the intrinsic spatial sparsity and temporal density of event data, while relying on a single fixed temporal-window sampling strategy that is suboptimal under varying motion dynamics. In this paper, we propose an event sparsity-aware tracking framework that explicitly models event-density variations across multiple temporal scales. Specifically, the proposed framework progressively injects sparse, medium-density, and dense event search regions into a three-stage Vision Transformer backbone, enabling hierarchical multi-density feature learning. Furthermore, we introduce a sparsity-aware Mixture-of-Experts module to encourage expert specialization under different sparsity patterns, and design a dynamic pondering strategy to adaptively adjust the inference depth according to tracking difficulty. Extensive experiments on FE240hz, COESOT, and EventVOT demonstrate that the proposed approach achieves a favorable trade-off between tracking accuracy and computational efficiency. The source code will be released on https://github.com/Event-AHU/OpenEvTracking.
- Abstract(参考訳): かなり進歩したにもかかわらず、RGBベースのトラッカーは、低照度や高速モーションなどの困難な撮像条件に弱いままである。
イベントカメラは、ピクセルワイドの輝度変化を非同期に捉え、高いダイナミックレンジと高い時間分解能を提供する、有望な代替手段を提供する。
しかし、既存のイベントベースのトラッカーは、固有空間空間間隔と事象データの時間密度を無視することが多い。
本稿では,複数の時間スケールにまたがるイベント密度変動を明示的にモデル化するイベント空間認識追跡フレームワークを提案する。
具体的には、3段階のVision Transformerバックボーンにスパース,中密度,高密度イベント探索領域を段階的に注入し,階層的マルチ密度特徴学習を実現する。
さらに,異なるスパーシティパターンによる専門家の専門化を促進するために,スパーシティ対応のMixture-of-Expertsモジュールを導入し,トラッキングの困難さに応じて推論深度を適応的に調整する動的思考戦略を設計する。
FE240hz、COESOT、EventVOTに関する大規模な実験により、提案手法は追跡精度と計算効率のトレードオフを良好に達成できることを示した。
ソースコードはhttps://github.com/Event-AHU/OpenEvTracking.comで公開される。
関連論文リスト
- Towards Video Anomaly Detection from Event Streams: A Baseline and Benchmark Datasets [71.53287557600177]
イベントベースの異常検出を統一研究の方向性として確立するための第一歩を踏み出す。
まず、同期イベントとRGB記録を特徴とする、ビデオ異常検出のための複数のイベントストリームベースのベンチマークを構築した。
次に,EVent中心のビデオ異常検出フレームワークであるEWADを提案する。
論文 参考訳(メタデータ) (2026-03-26T03:33:33Z) - Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing [2.5465367830324905]
イベントベースの視線追跡は、きめ細かい認知状態の推測に重要な可能性を秘めている。
本稿では、既存の事象に基づく視線推定モデルの出力を高めるために、モデルに依存しない推論時間改善フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-14T14:48:11Z) - Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach [32.91982063297922]
我々は,SFTrackと呼ばれる,異なる運用要件に柔軟に対応する新しいスローファストトラッキングパラダイムを提案する。
提案するフレームワークは2つの補完モード,すなわち,十分な計算資源を持つシナリオを対象とした高精度なスロートラッカと,レイテンシを意識したリソース制約のある環境に適した効率的な高速トラッカをサポートする。
このフレームワークは,まず高時間分解能イベントストリームからグラフベースの表現学習を行い,学習したグラフ構造化情報を2つのFlashAttentionベースのビジョンバックボーンに統合する。
論文 参考訳(メタデータ) (2025-05-19T09:37:23Z) - SuperEIO: Self-Supervised Event Feature Learning for Event Inertial Odometry [6.552812892993662]
イベントカメラは非同期に低レイテンシのイベントストリームを出力し、高速動作における状態推定と挑戦的な照明条件を約束する。
我々は,学習に基づく事象のみの検出とIMU測定を利用して,事象慣性オドメトリーを実現する新しいフレームワークであるSuperEIOを提案する。
提案手法を複数の公開データセット上で広範囲に評価し,その精度とロバスト性を他の最先端のイベントベース手法と比較した。
論文 参考訳(メタデータ) (2025-03-29T03:58:15Z) - Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - An Event-Oriented Diffusion-Refinement Method for Sparse Events
Completion [36.64856578682197]
イベントカメラまたはダイナミックビジョンセンサー(DVS)は、従来の強度フレームの代わりに輝度の変化に対する非同期応答を記録する。
本稿では,処理段階と出力形態の両方において,イベントデータのユニークな特性に適合するイベント完了シーケンス手法を提案する。
具体的には,イベントストリームを時間領域内の3次元イベントクラウドとして扱うとともに,高密度の雲を粗大に生成する拡散モデルを構築し,正確なタイムスタンプを復元して生データの時間分解を成功させる。
論文 参考訳(メタデータ) (2024-01-06T08:09:54Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。