論文の概要: Egocentric Gaze Estimation via Neck-Mounted Camera
- arxiv url: http://arxiv.org/abs/2602.11669v1
- Date: Thu, 12 Feb 2026 07:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.699954
- Title: Egocentric Gaze Estimation via Neck-Mounted Camera
- Title(参考訳): ネックマウンドカメラによるエゴセントリック迷路推定
- Authors: Haoyu Huang, Yoichi Sato,
- Abstract要約: 本稿では,首に装着したカメラから視線を推定する新しいタスクである首に装着した視線推定手法を提案する。
このタスクの最初のデータセットを収集し,日常活動中の8人の参加者から約4時間のビデオを収集した。
補助的な視線アウトオブバウンド分類タスクと,ヘッドビューとネックビューを併用訓練するマルチビューコラーニングアプローチの2つの拡張を提案する。
- 参考スコア(独自算出の注目度): 27.513961366278455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces neck-mounted view gaze estimation, a new task that estimates user gaze from the neck-mounted camera perspective. Prior work on egocentric gaze estimation, which predicts device wearer's gaze location within the camera's field of view, mainly focuses on head-mounted cameras while alternative viewpoints remain underexplored. To bridge this gap, we collect the first dataset for this task, consisting of approximately 4 hours of video collected from 8 participants during everyday activities. We evaluate a transformer-based gaze estimation model, GLC, on the new dataset and propose two extensions: an auxiliary gaze out-of-bound classification task and a multi-view co-learning approach that jointly trains head-view and neck-view models using a geometry-aware auxiliary loss. Experimental results show that incorporating gaze out-of-bound classification improves performance over standard fine-tuning, while the co-learning approach does not yield gains. We further analyze these results and discuss implications for neck-mounted gaze estimation.
- Abstract(参考訳): 本稿では,首に装着したカメラから視線を推定する新しいタスクである首に装着した視線推定手法を提案する。
カメラの視野内におけるデバイス装着者の視線位置を推定する自我中心の視線推定に関する研究は、主にヘッドマウントカメラに焦点をあてるが、代替の視線は未調査のままである。
このギャップを埋めるために、毎日の8人の参加者から収集された約4時間のビデオからなる、このタスクのための最初のデータセットを収集する。
我々は,新しいデータセットに基づいて,トランスフォーマーに基づく視線推定モデルであるGLCを評価し,視線外分類タスクと多視点協調学習アプローチの2つの拡張を提案する。
実験の結果,ガウンアウト・オブ・バウンドの分類を取り入れることで,通常の微調整よりも性能が向上し,コラーニング手法では利得が得られなかった。
さらに,これらの結果を解析し,首に装着した視線推定の意義について考察する。
関連論文リスト
- What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze Estimation [18.155092199205907]
本稿では,車内視線研究を進めるための3つの新しい要素について述べる。
まず、車内視線を捉えた先駆的なデータセットであるIVGazeを紹介する。
第2に、IVGazeを利用した車内視線推定に焦点を当てた。
第3に、GazeDPTRを拡張することで、視線ゾーン分類の新しい戦略を探求する。
論文 参考訳(メタデータ) (2024-03-23T01:22:15Z) - UVAGaze: Unsupervised 1-to-2 Views Adaptation for Gaze Estimation [10.412375913640224]
視線推定のための新しい1-view-to-2-views (1-to-2 view) 適応ソリューションを提案する。
本手法は、フレキシブルに配置されたデュアルカメラに対して、従来の単視点視線推定器に適応する。
実験により、シングルビュー推定器が双対ビューに適応すると、特にクロスデータセット設定において、はるかに高い精度が得られることが示された。
論文 参考訳(メタデータ) (2023-12-25T08:13:28Z) - BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision [101.36648828734646]
本稿では、視線を監督する新しい鳥眼ビュー(BEV)検出器について述べる。
提案手法は,従来および現代の画像バックボーンの幅広いスペクトルを用いて検証し,大規模なnuScenesデータセット上で新たなSoTA結果を得る。
論文 参考訳(メタデータ) (2022-11-18T18:59:48Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Online Deep Clustering with Video Track Consistency [85.8868194550978]
ビデオオブジェクトトラックから視覚的特徴を学習するための教師なしクラスタリングに基づく手法を提案する。
教師なしのクラス非依存でノイズの多いトラックジェネレータを利用すれば、コストと正確なトラックアノテーションに依存するよりも精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-07T08:11:00Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - LNSMM: Eye Gaze Estimation With Local Network Share Multiview Multitask [7.065909514483728]
本稿では,視線点と視線方向を同時に推定する新しい手法を提案する。
本手法は,視線点と視線方向の2つの指標について,現在主流の手法であることを示す。
論文 参考訳(メタデータ) (2021-01-18T15:14:24Z) - In the Eye of the Beholder: Gaze and Actions in First Person Video [30.54510882243602]
本研究では,ヘッドウーンカメラで撮影した映像の分析に基づいて,人が何をしているか,どこに見ているのかを共同で決定する課題に対処する。
私たちのデータセットには、ビデオ、視線追跡データ、ハンドマスク、アクションアノテーションが含まれています。
第一人物視における共同視線推定と行動認識のための新しい深層モデルを提案する。
論文 参考訳(メタデータ) (2020-05-31T22:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。