論文の概要: CapStARE: Capsule-based Spatiotemporal Architecture for Robust and Efficient Gaze Estimation
- arxiv url: http://arxiv.org/abs/2509.19936v1
- Date: Wed, 24 Sep 2025 09:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.7619
- Title: CapStARE: Capsule-based Spatiotemporal Architecture for Robust and Efficient Gaze Estimation
- Title(参考訳): CapStARE:ロバストかつ効率的な迷路推定のためのカプセル型時空間アーキテクチャ
- Authors: Miren Samaniego, Igor Rodriguez, Elena Lazkano,
- Abstract要約: CapAREはカプセルベースの視線推定アーキテクチャで、ConvXtデコーダ、注意を向けたカプセル形成、低速視線ダイナミクスのための双対GRUを統合している。
このモデルは Gaze360 (9.06) の制約のない条件や RT-GENE (4.76) の人間とロボットの相互作用シナリオによく当てはまり、既存の手法よりも少ないパラメータと高い解釈性で性能や整合性を実現している。
- 参考スコア(独自算出の注目度): 0.5620334754517148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CapStARE, a capsule-based spatio-temporal architecture for gaze estimation that integrates a ConvNeXt backbone, capsule formation with attention routing, and dual GRU decoders specialized for slow and rapid gaze dynamics. This modular design enables efficient part-whole reasoning and disentangled temporal modeling, achieving state-of-the-art performance on ETH-XGaze (3.36) and MPIIFaceGaze (2.65) while maintaining real-time inference (< 10 ms). The model also generalizes well to unconstrained conditions in Gaze360 (9.06) and human-robot interaction scenarios in RT-GENE (4.76), outperforming or matching existing methods with fewer parameters and greater interpretability. These results demonstrate that CapStARE offers a practical and robust solution for real-time gaze estimation in interactive systems. The related code and results for this article can be found on: https://github.com/toukapy/capsStare
- Abstract(参考訳): 本稿では、ConvNeXtバックボーン、アテンションルーティング付きカプセル形成、スローかつ高速な視線ダイナミクスに特化したデュアルGRUデコーダを統合した、視線推定のためのカプセルベース時空間アーキテクチャであるCapStAREを紹介する。
このモジュラー設計により、リアルタイム推論(10ms)を維持しつつ、ETH-XGaze (3.36) と MPIIFaceGaze (2.65) の最先端性能を達成することができる。
モデルはまた、Gaze360 (9.06) の制約のない条件やRT-GENE (4.76) の人間とロボットの相互作用シナリオを一般化し、より少ないパラメータとより高い解釈性を持つ既存の手法よりも優れているか、適合している。
これらの結果から,CapStAREは対話型システムにおけるリアルタイム視線推定のための実用的で堅牢なソリューションであることが示された。
この記事の関連コードと結果については、https://github.com/toukapy/capsStareを参照してください。
関連論文リスト
- Decoupling Spatio-Temporal Prediction: When Lightweight Large Models Meet Adaptive Hypergraphs [12.867023510751787]
STH-SepNetは、時間的および空間的表現性を効率と精度の両方に分離する新しいフレームワークである。
S-SepNetは、現実世界のアプリケーションにおける時間予測のための実用的でスケーラブルなソリューションを提供する。
この作業は、計算要求の削減と予測性能の向上を目的とした、時間的予測のための有望な軽量フレームワークを提供する可能性がある。
論文 参考訳(メタデータ) (2025-05-26T07:37:39Z) - Dual-Path Enhancements in Event-Based Eye Tracking: Augmented Robustness and Adaptive Temporal Modeling [0.0]
イベントベースのアイトラッキングは、拡張現実と人間とコンピュータのインタラクションにとって重要な技術となっている。
既存の方法は、突然の眼球運動や環境騒音といった現実的な課題に苦しむ。
まず、時間シフト、空間的フリップ、イベント削除を組み込んだ堅牢なデータ拡張パイプラインにより、モデルのレジリエンスが向上する。
2つ目は、空間的特徴抽出のための効率的なNet-B3バックボーン、文脈時空間モデリングのための双方向GRU、線形時変状態空間モジュールを組み合わせたハイブリッドアーキテクチャであるKnightPupilを提案する。
論文 参考訳(メタデータ) (2025-04-14T07:57:22Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - On the Integration of Spatial-Temporal Knowledge: A Lightweight Approach to Atmospheric Time Series Forecasting [24.119776558530983]
複雑建築における時空間知識統合の有効性を強調し,大気時系列予測(ATSF)の新たな知見を提供する。
10kパラメータと1時間のトレーニングにより、STELLAは他の高度なメソッドと比較して、5つのデータセットで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-19T04:23:40Z) - A Mixture of Experts Approach to 3D Human Motion Prediction [1.4974445469089412]
本研究は,Au-Tonomous Vehicle Motion Detectionなどのアプリケーションにとって重要な領域である,人間の動作予測の課題に対処する。
私たちの主な目的は、既存のモデルar-tectureを批判的に評価し、その利点と改善の機会を特定することです。
これは完全に微分可能なスパーストランスであり、推論コストの低いモデルキャパシティを有効にする有望な能力を示している。
論文 参考訳(メタデータ) (2024-05-09T20:26:58Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。