論文の概要: Dual-Path Enhancements in Event-Based Eye Tracking: Augmented Robustness and Adaptive Temporal Modeling
- arxiv url: http://arxiv.org/abs/2504.09960v1
- Date: Mon, 14 Apr 2025 07:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:42.821836
- Title: Dual-Path Enhancements in Event-Based Eye Tracking: Augmented Robustness and Adaptive Temporal Modeling
- Title(参考訳): 事象に基づく視線追跡におけるデュアルパスの強化--ロバスト性の向上と適応的時間モデル
- Authors: Hoang M. Truong, Vinh-Thuan Ly, Huy G. Tran, Thuan-Phat Nguyen, Tram T. Doan,
- Abstract要約: イベントベースのアイトラッキングは、拡張現実と人間とコンピュータのインタラクションにとって重要な技術となっている。
既存の方法は、突然の眼球運動や環境騒音といった現実的な課題に苦しむ。
まず、時間シフト、空間的フリップ、イベント削除を組み込んだ堅牢なデータ拡張パイプラインにより、モデルのレジリエンスが向上する。
2つ目は、空間的特徴抽出のための効率的なNet-B3バックボーン、文脈時空間モデリングのための双方向GRU、線形時変状態空間モジュールを組み合わせたハイブリッドアーキテクチャであるKnightPupilを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Event-based eye tracking has become a pivotal technology for augmented reality and human-computer interaction. Yet, existing methods struggle with real-world challenges such as abrupt eye movements and environmental noise. Building on the efficiency of the Lightweight Spatiotemporal Network-a causal architecture optimized for edge devices-we introduce two key advancements. First, a robust data augmentation pipeline incorporating temporal shift, spatial flip, and event deletion improves model resilience, reducing Euclidean distance error by 12% (1.61 vs. 1.70 baseline) on challenging samples. Second, we propose KnightPupil, a hybrid architecture combining an EfficientNet-B3 backbone for spatial feature extraction, a bidirectional GRU for contextual temporal modeling, and a Linear Time-Varying State-Space Module to adapt to sparse inputs and noise dynamically. Evaluated on the 3ET+ benchmark, our framework achieved 1.61 Euclidean distance on the private test set of the Event-based Eye Tracking Challenge at CVPR 2025, demonstrating its effectiveness for practical deployment in AR/VR systems while providing a foundation for future innovations in neuromorphic vision.
- Abstract(参考訳): イベントベースのアイトラッキングは、拡張現実と人間とコンピュータのインタラクションにとって重要な技術となっている。
しかし、既存の手法は、突然の眼球運動や環境騒音といった現実的な課題に苦しむ。
エッジデバイスに最適化された因果アーキテクチャである軽量時空間ネットワークの効率性に基づいて,我々は2つの重要な進歩を紹介した。
まず、時間的シフト、空間的フリップ、イベント削除を含むロバストなデータ拡張パイプラインはモデルのレジリエンスを改善し、挑戦的なサンプル上でユークリッド距離誤差を12%削減する(1.61対1.70ベースライン)。
第2に、空間的特徴抽出のための効率的なNet-B3バックボーンと、文脈時空間モデリングのための双方向GRUと、スパース入力とノイズに動的に対応する線形時変状態空間モジュールを組み合わせたハイブリッドアーキテクチャであるKnightPupilを提案する。
CVPR 2025におけるイベントベースアイトラッキングチャレンジのプライベートテストセットにおいて,我々のフレームワークは,3ET+ベンチマークに基づいて1.61ユークリッド距離を達成した。
関連論文リスト
- You Only Crash Once v2: Perceptually Consistent Strong Features for One-Stage Domain Adaptive Detection of Space Terrain [4.339510167603377]
惑星、月、小天体の表面地形をその場で検出することは、自律的な宇宙船の用途に不可欠である。
Unsupervised Domain Adaptation (UDA)は、異なるデータソースによるモデルトレーニングを容易にすることで、有望なソリューションを提供する。
UDA下での地形検出能力を向上するVSA方式の新たな追加を提案する。
論文 参考訳(メタデータ) (2025-01-23T14:58:49Z) - CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics [7.696109414724968]
スパイキングニューラルネットワーク(SNN)は、イベントベースのオブジェクト認識と検出を約束する。
既存のSNNフレームワークは、多くの場合、マルチスケールの時間的特徴を扱うことができず、データの冗長性が向上し、精度が低下する。
我々は、イベントベースのオブジェクト検出を利用するために、結合的にトレーニングされた新しいスパイク駆動フレームワークであるCRESTを提案する。
論文 参考訳(メタデータ) (2024-12-17T04:33:31Z) - DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - A Lightweight Spatiotemporal Network for Online Eye Tracking with Event Camera [0.8576354642891824]
イベントベースのデータは、効率性と低レイテンシが重要であるエッジコンピューティング環境で一般的に発生する。
このようなデータと対話し,その時間的豊かさを活用するために,因果畳み込みネットワークを提案する。
我々は,AIS 2024イベントベースのアイトラッキング課題に適用し,Kaggleプライベートテストセットで0.9916 p10の精度を達成した。
論文 参考訳(メタデータ) (2024-04-13T00:13:20Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Spatio-temporal Modeling for Large-scale Vehicular Networks Using Graph
Convolutional Networks [110.80088437391379]
SMARTと呼ばれるグラフベースのフレームワークが提案され、大規模な地理的領域にわたるV2I通信遅延の統計をモデル化し、追跡する。
深層Q-networksアルゴリズムと統合したグラフ畳み込みネットワークを用いたグラフ再構築型手法を開発する。
その結果,提案手法は,モデル化の精度と効率と,大規模車両ネットワークにおける遅延性能を有意に向上させることが示された。
論文 参考訳(メタデータ) (2021-03-13T06:56:29Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。