論文の概要: FOVAL: Calibration-Free and Subject-Invariant Fixation Depth Estimation Across Diverse Eye-Tracking Datasets
- arxiv url: http://arxiv.org/abs/2408.03591v2
- Date: Fri, 19 Sep 2025 14:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.754142
- Title: FOVAL: Calibration-Free and Subject-Invariant Fixation Depth Estimation Across Diverse Eye-Tracking Datasets
- Title(参考訳): FOVAL: 眼球追跡データセット間の校正自由度および被写体不変量固定深さ推定
- Authors: Benedikt W. Hosp,
- Abstract要約: 深度推定に対するロバストなキャリブレーションフリーアプローチであるFOVALを導入する。
変換器、時空間ネットワーク(TCN)、CNNと比較して、FOVALは優れた性能を発揮する。
LOOCV(Leave-One-Out Cross-Validation)とクロスデータセットバリデーション(cross-dataset Validation)を用いた3つのベンチマークデータセットに対する評価は、平均絶対誤差(MAE)が9.1cmであり、キャリブレーションなしでの強い一般化を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate fixation depth estimation is essential for applications in extended reality (XR), robotics, and human-computer interaction. However, current methods heavily depend on user-specific calibration, which limits their scalability and usability. We introduce FOVAL, a robust calibration-free approach that combines spatiotemporal sequence modelling via Long Short-Term Memory (LSTM) networks with subject-invariant feature engineering and normalisation. Compared to Transformers, Temporal Convolutional Networks (TCNs), and CNNs, FOVAL achieves superior performance, particularly in scenarios with limited and noisy gaze data. Evaluations across three benchmark datasets using Leave-One-Out Cross-Validation (LOOCV) and cross-dataset validation show a mean absolute error (MAE) of 9.1 cm and strong generalisation without calibration. We further analyse inter-subject variability and domain shifts, providing insight into model robustness and adaptation. FOVAL's scalability and accuracy make it highly suitable for real-world deployment.
- Abstract(参考訳): 正確な固定深度推定は、拡張現実(XR)、ロボット工学、人間とコンピュータの相互作用における応用に不可欠である。
しかし、現在の手法はユーザ固有のキャリブレーションに大きく依存しており、スケーラビリティとユーザビリティを制限している。
本稿では,LSTM(Long Short-Term Memory)ネットワークによる時空間シーケンスモデリングと,主観的不変な特徴工学と正規化を組み合わせた,ロバストなキャリブレーションフリーアプローチであるFOVALを紹介する。
Transformers, Temporal Convolutional Networks (TCNs) や CNN と比較して,FOVAL は特に限られたノイズの多い視線データを持つシナリオにおいて,優れたパフォーマンスを実現している。
LOOCV(Leave-One-Out Cross-Validation)とクロスデータセットバリデーション(cross-dataset Validation)を用いた3つのベンチマークデータセットに対する評価は、平均絶対誤差(MAE)が9.1cmであり、キャリブレーションなしでの強い一般化を示している。
さらに、オブジェクト間の変動性とドメインシフトを分析し、モデルの堅牢性と適応性に関する洞察を提供する。
FOVALのスケーラビリティと精度は、現実世界のデプロイメントに非常に適している。
関連論文リスト
- Foundation Feature-Driven Online End-Effector Pose Estimation: A Marker-Free and Learning-Free Approach [4.132336580197184]
本研究は,機能駆動型オンライン・エンド・エフェクト・オア・ポース推定アルゴリズムを提案する。
トレーニング不要の方法で、ロボットとエンドエフェクターをまたいで一般化する。
実験は、その優れた柔軟性、一般化、パフォーマンスを示します。
論文 参考訳(メタデータ) (2025-03-18T09:12:49Z) - Active Alignments of Lens Systems with Reinforcement Learning [0.0]
センサ出力の画素空間内でのみ学習する強化学習(RL)手法を提案する。
我々は、広範囲にわたるベンチマーク研究を行い、我々のアプローチが、速度、精度、堅牢性において他の手法を超えることを示す。
論文 参考訳(メタデータ) (2025-03-03T21:57:08Z) - What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - PLATE: A perception-latency aware estimator, [0.46040036610482665]
知覚遅延認識型エストリメータ(PLATE)
PLATEは、特定のパフォーマンス指標を最適化するために、異なるタイミングで異なる知覚構成を使用する。
他のフレームスキッピング技術と比較して、PLATEは形式的な複雑さと最適性解析を持つ。
論文 参考訳(メタデータ) (2024-01-24T17:04:18Z) - Deep Reinforcement Learning Based System for Intraoperative
Hyperspectral Video Autofocusing [2.476200036182773]
この研究は、焦点調整可能な液体レンズをビデオHSIエクソスコープに統合する。
現実的で再現可能なテストデータセットを作成するために、第一種ロボット焦点時間スキャンが実施された。
論文 参考訳(メタデータ) (2023-07-21T15:04:21Z) - EasyHeC: Accurate and Automatic Hand-eye Calibration via Differentiable
Rendering and Space Exploration [49.90228618894857]
我々は、マーカーレスでホワイトボックスであり、より優れた精度とロバスト性を提供するEasyHeCと呼ばれる手眼校正の新しいアプローチを導入する。
我々は,2つの重要な技術 – レンダリングベースのカメラポーズの最適化と整合性に基づく共同空間探索 – を利用することを提案する。
本評価は,合成および実世界のデータセットにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-02T03:49:54Z) - Aberration-Aware Depth-from-Focus [20.956132508261664]
焦点スタックにおける最良焦点フレームの決定に影響を及ぼすオフ軸収差による領域ギャップについて検討する。
次に、収差認識トレーニング(AAT)を通じて、この領域ギャップをブリッジすることを検討する。
我々のアプローチは、異なる位置でレンズ収差をモデル化し、フォーカス距離をモデル化する軽量ネットワークで、従来のネットワークトレーニングパイプラインに統合される。
論文 参考訳(メタデータ) (2023-03-08T15:21:33Z) - Learned Monocular Depth Priors in Visual-Inertial Initialization [4.99761983273316]
視覚慣性オドメトリー(VIO)は、今日のほとんどのAR/VRおよび自律ロボットシステムのポーズ推定バックボーンである。
本稿では,古典的視覚慣性構造の限界を回避することを提案する。
学習した単眼深度画像(単眼深度)を利用して特徴の相対的深度を制約し,そのスケールとシフトを最適化することにより,単眼深度をメートル法スケールにアップグレードする。
論文 参考訳(メタデータ) (2022-04-20T00:30:04Z) - An automatic differentiation system for the age of differential privacy [65.35244647521989]
Tritiumは、微分プライベート(DP)機械学習(ML)のための自動微分ベース感度分析フレームワークである
我々は、微分プライベート(DP)機械学習(ML)のための自動微分に基づく感度分析フレームワークTritiumを紹介する。
論文 参考訳(メタデータ) (2021-09-22T08:07:42Z) - A parameter refinement method for Ptychography based on Deep Learning
concepts [55.41644538483948]
伝播距離、位置誤差、部分的コヒーレンスにおける粗いパラメトリゼーションは、しばしば実験の生存性を脅かす。
最新のDeep Learningフレームワークは、セットアップの不整合を自律的に補正するために使用され、ポチコグラフィーの再構築の質が向上する。
我々は,elettra シンクロトロン施設のツインミックビームラインで取得した合成データセットと実データの両方でシステムをテストした。
論文 参考訳(メタデータ) (2021-05-18T10:15:17Z) - Estimating Egocentric 3D Human Pose in Global Space [70.7272154474722]
本稿では,魚眼カメラを用いた自己中心型3次元体姿勢推定法を提案する。
提案手法は, 定量的, 定性的に, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-04-27T20:01:57Z) - Universal and Flexible Optical Aberration Correction Using Deep-Prior
Based Deconvolution [51.274657266928315]
そこで本研究では,収差画像とpsfマップを入力とし,レンズ固有深層プリエントを組み込んだ潜在高品質版を生成する,psf対応プラグイン・アンド・プレイ深層ネットワークを提案する。
具体的には、多彩なレンズの集合からベースモデルを事前訓練し、パラメータを迅速に精製して特定のレンズに適応させる。
論文 参考訳(メタデータ) (2021-04-07T12:00:38Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。