論文の概要: Rapidly deploying on-device eye tracking by distilling visual foundation models
- arxiv url: http://arxiv.org/abs/2604.02509v1
- Date: Thu, 02 Apr 2026 21:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.200969
- Title: Rapidly deploying on-device eye tracking by distilling visual foundation models
- Title(参考訳): 視覚基礎モデルの蒸留によるデバイス上眼球追跡の迅速展開
- Authors: Cheng Jiang, Jogendra Kundu, David Colmenares, Fengting Yang, Joseph Robinson, Yatong An, Ali Behrooz,
- Abstract要約: DistillGazeは、ラベル付き合成データとラベルなし実データを活用することで基礎モデルを蒸留するフレームワークである。
合成専用の基準線と比較して、中央の視線誤差を58.62%削減する。
デバイス上のレグレッションタスクにおいて、合成監視とラベルなしの実データを組み合わせるためのレシピを提供する。
- 参考スコア(独自算出の注目度): 2.6391098814807035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye tracking (ET) plays a critical role in augmented and virtual reality applications. However, rapidly deploying high-accuracy, on-device gaze estimation for new products remains challenging because hardware configurations (e.g., camera placement, camera pose, and illumination) often change across device generations. Visual foundation models (VFMs) are a promising direction for rapid training and deployment, and they excel on natural-image benchmarks; yet we find that off-the-shelf VFMs still struggle to achieve high accuracy on specialized near-eye infrared imagery. To address this gap, we introduce DistillGaze, a framework that distills a foundation model by leveraging labeled synthetic data and unlabeled real data for rapid and high-performance on-device gaze estimation. DistillGaze proceeds in two stages. First, we adapt a VFM into a domain-specialized teacher using self-supervised learning on labeled synthetic and unlabeled real images. Synthetic data provides scalable, high-quality gaze supervision, while unlabeled real data helps bridge the synthetic-to-real domain gap. Second, we train an on-device student using both teacher guidance and self-training. Evaluated on a large-scale, crowd-sourced dataset spanning over 2,000 participants, DistillGaze reduces median gaze error by 58.62% relative to synthetic-only baselines while maintaining a lightweight 256K-parameter model suitable for real-time on-device deployment. Overall, DistillGaze provides an efficient pathway for training and deploying ET models that adapt to hardware changes, and offers a recipe for combining synthetic supervision with unlabeled real data in on-device regression tasks.
- Abstract(参考訳): アイトラッキング(ET)は、拡張現実および仮想現実アプリケーションにおいて重要な役割を果たす。
しかし、ハードウェア構成(例えば、カメラ配置、カメラポーズ、照明など)がデバイス世代間で頻繁に変化するため、デバイス上の新製品の高速展開は依然として困難である。
ビジュアルファウンデーションモデル(VFM)は、迅速なトレーニングとデプロイメントのための有望な方向であり、自然画像のベンチマークに優れています。
このギャップに対処するために,ラベル付き合成データとラベルなし実データを利用して基礎モデルを蒸留するフレームワークであるDistillGazeを導入する。
DistillGazeは2段階で進行する。
まず、ラベル付き合成およびラベルなし実画像の自己教師付き学習を用いて、VFMをドメイン特化教師に適応させる。
合成データはスケーラブルで高品質な視線監視を提供するが、ラベルなしの実際のデータは合成と実際のドメインギャップを埋めるのに役立つ。
第2に、教師指導と自己学習の両方を用いて、デバイス上の学生を訓練する。
2,000人以上の参加者にまたがる大規模なクラウドソースデータセットに基づいて評価されたDistillGazeは、合成専用ベースラインと比較して中央の視線誤差を58.62%削減し、リアルタイムオンデバイス展開に適した軽量256Kパラメータモデルを維持している。
全体として、DistillGazeは、ハードウェアの変更に対応するETモデルのトレーニングとデプロイのための効率的なパスを提供し、デバイス上のレグレッションタスクにおいて、未ラベルの実際のデータと合成監督を組み合わせるためのレシピを提供する。
関連論文リスト
- DIFFUMA: High-Fidelity Spatio-Temporal Video Prediction via Dual-Path Mamba and Diffusion Enhancement [5.333662480077316]
我々は,半導体ウェハダイシングプロセスに特化した最初の公開時空間画像データセットであるChip Dicing Laneデータセット(CHDL)をリリースする。
このような微細なダイナミクスに特化して設計された、革新的なデュアルパス予測アーキテクチャであるDIFFUMAを提案する。
実験の結果、DIFFUMAは既存の手法よりも優れており、平均二乗誤差(MSE)を39%削減し、類似性(SSIM)を0.926から0.988に改善した。
論文 参考訳(メタデータ) (2025-07-09T10:51:54Z) - Learning Unpaired Image Dehazing with Physics-based Rehazy Generation [50.37414006427923]
合成トレーニングペアへの過度な適合は、イメージデハジングにおいて重要な課題である。
本研究では,非対位画像脱ハージング(Rehazy)の新たなトレーニング戦略を提案し,脱ハージング性能とトレーニング安定性を両立させる。
論文 参考訳(メタデータ) (2025-06-15T12:12:28Z) - LSM-2: Learning from Incomplete Wearable Sensor Data [65.58595667477505]
本稿では,Adaptive and Inherited Masking (AIM)を用いた第2世代Large Sensor Model (LSM-2)を紹介する。
AIMは明示的な計算を必要とせず、不完全なデータから直接堅牢な表現を学習する。
AIMを用いた LSM-2 は, 分類, 回帰, 生成モデルなど, 多様なタスクにまたがる最高の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:57:11Z) - MapGS: Generalizable Pretraining and Data Augmentation for Online Mapping via Novel View Synthesis [15.64243217749911]
本稿では,ガウシアンスプラッティングを利用してシーンを再構成し,カメライメージをターゲットセンサ構成に描画する新しいフレームワークを提案する。
提案する nuScenes と Argoverse 2 データセットのフレームワークは,効率的なデータセット拡張による18%の性能向上を示す。
これにより、データの再利用が可能になり、面倒なデータラベリングの必要性が軽減される。
論文 参考訳(メタデータ) (2025-01-11T23:16:49Z) - Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開します。
論文 参考訳(メタデータ) (2024-12-06T18:41:39Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - LaMAR: Benchmarking Localization and Mapping for Augmented Reality [80.23361950062302]
異種ARデバイスでキャプチャされたリアルな軌跡とセンサストリームを共登録する,包括的キャプチャとGTパイプラインを備えた新しいベンチマークであるLaMARを紹介する。
私たちは、ヘッドマウントとハンドヘルドARデバイスで記録された多様な大規模シーンのベンチマークデータセットを公開します。
論文 参考訳(メタデータ) (2022-10-19T17:58:17Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。