論文の概要: Deployment-Oriented Session-wise Meta-Calibration for Landmark-Based Webcam Gaze Tracking
- arxiv url: http://arxiv.org/abs/2603.12388v1
- Date: Thu, 12 Mar 2026 19:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.734254
- Title: Deployment-Oriented Session-wise Meta-Calibration for Landmark-Based Webcam Gaze Tracking
- Title(参考訳): ランドマークに基づくWebカムゲーミング追跡のための展開指向セッションワイドメタキャリブレーション
- Authors: Chenkai Zhang,
- Abstract要約: Equivariant Meta-Calibrated Gaze (EMC-Gaze)
E(3)-同変のランドマークグラフエンコーダ、局所眼形状、双眼強調、補助的な3D視線方向監督、およびエピソディックなメタトレーニングによって区別されたクローズドフォームリッジキャリブレータを組み合わせた軽量なランドマークのみの手法である。
MPIIFaceGazeでは、短いパーセッションキャリブレーションで、アイフォーカスモデルは16ショットキャリブレーションで8.82 +/- 1.21デグに達し、弾力ネットを1ショットで結び、3ショット以上で性能を上回っている。
- 参考スコア(独自算出の注目度): 7.900882226705444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practical webcam gaze tracking is constrained not only by error, but also by calibration burden, robustness to head motion and session drift, runtime footprint, and browser use. We therefore target a deployment-oriented operating point rather than the image large-backbone regime. We cast landmark-based point-of-regard estimation as session-wise adaptation: a shared geometric encoder produces embeddings that can be aligned to a new session from a small calibration set. We present Equivariant Meta-Calibrated Gaze (EMC-Gaze), a lightweight landmark-only method combining an E(3)-equivariant landmark-graph encoder, local eye geometry, binocular emphasis, auxiliary 3D gaze-direction supervision, and a closed-form ridge calibrator differentiated through episodic meta-training. To reduce pose leakage, we use a two-view canonicalization consistency loss. The deployed predictor uses only facial landmarks and fits a per-session ridge head from brief calibration. In a fixation-style interactive evaluation over 33 sessions at 100 cm, EMC-Gaze achieves 5.79 +/- 1.81 deg RMSE after 9-point calibration versus 6.68 +/- 2.34 deg for Elastic Net; the gain is larger on still-head queries (2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg). Across three subject holdouts of 10 subjects each, EMC-Gaze retains an advantage (5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg). On MPIIFaceGaze with short per-session calibration, the eye-focused model reaches 8.82 +/- 1.21 deg at 16-shot calibration, ties Elastic Net at 1-shot, and outperforms it from 3-shot onward. The exported eye-focused encoder has 944,423 parameters, is 4.76 MB in ONNX, and supports calibrated browser prediction in 12.58/12.58/12.90 ms per sample (mean/median/p90) in Chromium 145 with ONNX Runtime Web. These results position EMC-Gaze as a calibration-friendly operating point rather than a universal state-of-the-art claim against heavier appearance-based systems.
- Abstract(参考訳): 実際のWebカメラの視線追跡は、エラーだけでなく、キャリブレーションの負担、ヘッドモーションやセッションのドリフトに対する堅牢性、ランタイムフットプリント、ブラウザの使用によって制限されている。
したがって、画像の大きなバックボーン構造ではなく、デプロイメント指向の運用ポイントをターゲットとします。
共有幾何エンコーダは、小さなキャリブレーションセットから新しいセッションに合わせることができる埋め込みを生成する。
本稿では,E3-equivariantなランドマークグラフエンコーダ,局所眼形状,双眼強調,補助的な3次元視線方向監督,およびエピソードなメタトレーニングによって区別された閉形リッジキャリブレータを組み合わせた,軽量なランドマーク専用ガゼ(EMC-Gaze)を提案する。
ポーズリークを低減するために、2ビューの正準化整合損失を用いる。
展開された予測器は顔のランドマークのみを使用し、短時間のキャリブレーションからセッションごとのリッジヘッドに適合する。
EMC-Gazeは100cmで33セッションをインタラクティブに評価し、9ポイントのキャリブレーションで5.79 +/- 1.81 deg RMSE、Elastic Netで6.68 +/- 2.34 degを達成した(2.92 +/- 0.75 deg vs. 4.45 +/- 0.30 deg)。
EMC-Gazeは、被験者10名のうち3名(5.66 +/- 0.19 deg vs. 6.49 +/- 0.33 deg)で優位を維持している。
MPIIFaceGazeでは、短いパーセッションキャリブレーションで、アイフォーカスモデルは16ショットキャリブレーションで8.82 +/- 1.21デグに達し、弾力ネットを1ショットで結び、3ショット以上で性能を上回っている。
輸出されたアイフォーカスエンコーダは994,423のパラメータを持ち、ONNXで4.76MBであり、Chromium 145の12.58/12.58/12.90ms/サンプル(平均/中間/p90)とONNX Runtime Webでキャリブレーションされたブラウザ予測をサポートする。
これらの結果は、EMC-Gazeを、より重い外観ベースのシステムに対する普遍的な最先端のクレームではなく、キャリブレーションフレンドリーな運用ポイントとして位置づけている。
関連論文リスト
- Geometry OR Tracker: Universal Geometric Operating Room Tracking [61.399734016038614]
手術室(OR)では、世界規模のマルチビュー3Dトラッキングは、外科医の行動認識のような下流のアプリケーションをサポートする。
カメラのキャリブレーションとRGB-Dの登録は常に信頼性が低く、幾何学的不整合が生じる。
我々は、不正確なキャリブレーションをスケール一貫性と幾何学的に整合したカメラ設定に修正する2段階パイプラインであるGeometry OR Trackerを紹介する。
論文 参考訳(メタデータ) (2026-02-28T09:21:21Z) - Cut Less, Fold More: Model Compression through the Lens of Projection Geometry [12.652240359673328]
投影幾何学のレンズによるキャリブレーションフリー圧縮について検討する。
演算子として定式化し、1のランク距離で折り畳むとパラメータ再構成誤差が小さくなることを示す。
以上の結果から, 折り畳みは, 理論上は上向きで, 原理上は上向きであるプルーニングに代わる幾何学的, キャリブレーションのない代替品として位置づけられる。
論文 参考訳(メタデータ) (2026-02-20T10:09:02Z) - Extreme Model Compression for Edge Vision-Language Models: Sparse Temporal Token Fusion and Adaptive Neural Compression [0.0]
2つの適応圧縮技術は、アルゴリズムの革新とハードウェア対応の最適化を統合するために提案されている。
イベントベースの視覚タスクでは、STTFは平均トークン数を84%削減する。
ANCは低モーションシーンでFLOPを最大90%カットする。
論文 参考訳(メタデータ) (2025-11-23T15:43:00Z) - Kineo: Calibration-Free Metric Motion Capture From Sparse RGB Cameras [2.6941922156574267]
アンカロライズされていないRGBカメラで撮影したビデオから、マーカーレスモーションキャプチャーのための、完全に自動でキャリブレーションのないパイプラインであるKineoを提示する。
自信駆動型キーポイントサンプリング戦略とグラフに基づくグローバル最適化を組み合わせることで、列長に依存しない固定計算コストでロバストなキャリブレーションが保証される。
Keinoはカメラ翻訳誤差を83~85%、カメラ角誤差を86~92%、世界平均結合誤差(W-MPJPE)を83~91%削減する。
論文 参考訳(メタデータ) (2025-10-28T14:30:47Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - On Calibration of Modern Quantized Efficient Neural Networks [79.06893963657335]
キャリブレーションの質は、量子化の質を追跡するために観察される。
GhostNet-VGGは、低い精度で全体的なパフォーマンス低下に対して最も堅牢であることが示されている。
論文 参考訳(メタデータ) (2023-09-25T04:30:18Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - BoxGraph: Semantic Place Recognition and Pose Estimation from 3D LiDAR [22.553026961366005]
意味的に特定されたコンポーネントの完全連結グラフとして、3Dポイントクラウドをモデル化する。
グラフ間の最適アソシエーションにより、完全な6自由度(DoF)のポーズ推定と位置認識が可能になる。
この表現は非常に簡潔で、最先端に対して25の因子で写像のサイズを縮める。
論文 参考訳(メタデータ) (2022-06-30T09:39:08Z) - Focal Modulation Networks [105.93086472906765]
自己注意(SA)は完全に焦点変調ネットワーク(FocalNet)に置き換えられる
ImageNet-1Kの精度は82.3%、83.9%である。
FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
論文 参考訳(メタデータ) (2022-03-22T17:54:50Z) - Robust 360-8PA: Redesigning The Normalized 8-point Algorithm for 360-FoV
Images [53.11097060367591]
球面投影における360-fov画像から本質行列を推定する新しい手法を提案する。
我々の正規化は、時間を大幅に上回ることなく、カメラの精度を約20%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-04-22T07:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。