論文の概要: Multi-view Gaze Target Estimation
- arxiv url: http://arxiv.org/abs/2508.05857v1
- Date: Thu, 07 Aug 2025 21:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.014687
- Title: Multi-view Gaze Target Estimation
- Title(参考訳): 多視点ゲゼ目標推定
- Authors: Qiaomu Miao, Vivek Raju Golani, Jingyi Xu, Progga Paromita Dutta, Minh Hoai, Dimitris Samaras,
- Abstract要約: 本稿では,視線目標推定(GTE)タスクに複数のカメラビューを利用する手法を提案する。
このアプローチは、さまざまなカメラビューの情報を統合して、精度を改善し、適用性を高める。
本稿では,多視点GTE手法の開発と評価のための多視点データセットを提案する。
- 参考スコア(独自算出の注目度): 42.72151752119855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a method that utilizes multiple camera views for the gaze target estimation (GTE) task. The approach integrates information from different camera views to improve accuracy and expand applicability, addressing limitations in existing single-view methods that face challenges such as face occlusion, target ambiguity, and out-of-view targets. Our method processes a pair of camera views as input, incorporating a Head Information Aggregation (HIA) module for leveraging head information from both views for more accurate gaze estimation, an Uncertainty-based Gaze Selection (UGS) for identifying the most reliable gaze output, and an Epipolar-based Scene Attention (ESA) module for cross-view background information sharing. This approach significantly outperforms single-view baselines, especially when the second camera provides a clear view of the person's face. Additionally, our method can estimate the gaze target in the first view using the image of the person in the second view only, a capability not possessed by single-view GTE methods. Furthermore, the paper introduces a multi-view dataset for developing and evaluating multi-view GTE methods. Data and code are available at https://www3.cs.stonybrook.edu/~cvl/multiview_gte.html
- Abstract(参考訳): 本稿では,視線目標推定(GTE)タスクに複数のカメラビューを利用する手法を提案する。
このアプローチは、さまざまなカメラビューからの情報を統合して、精度を改善し、適用性を高めるとともに、顔の隠蔽、ターゲットのあいまいさ、視野外目標といった課題に直面している既存の単一ビューメソッドの制限に対処する。
本手法は,2つのカメラビューを入力として処理し,より正確な視線推定のために両ビューからの頭部情報を活用するヘッド情報集約(HIA)モジュールと,最も信頼性の高い視線出力を特定する不確実性に基づく視線選択(UGS)モジュールと,視線背景情報を共有するためのエピポーラベースシーンアテンション(ESA)モジュールを組み込んだ。
このアプローチは、特に第2のカメラが人の顔の鮮明な視界を提供する場合、シングルビューベースラインを著しく上回る。
さらに,本手法では,第2視点の人物の画像のみを用いて,第1視点の視線目標を推定することができる。
さらに,マルチビューGTE手法の開発と評価のためのマルチビューデータセットを提案する。
データとコードはhttps://www3.cs.stonybrook.edu/~cvl/multiview_gte.htmlで公開されている。
関連論文リスト
- Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos [66.1935609072708]
LangViewは、ビュー依存のキャプション予測の相対的精度を、擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークである。
推論中、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - UVAGaze: Unsupervised 1-to-2 Views Adaptation for Gaze Estimation [10.412375913640224]
視線推定のための新しい1-view-to-2-views (1-to-2 view) 適応ソリューションを提案する。
本手法は、フレキシブルに配置されたデュアルカメラに対して、従来の単視点視線推定器に適応する。
実験により、シングルビュー推定器が双対ビューに適応すると、特にクロスデータセット設定において、はるかに高い精度が得られることが示された。
論文 参考訳(メタデータ) (2023-12-25T08:13:28Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances [59.34619548026885]
本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。
提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
論文 参考訳(メタデータ) (2023-03-10T18:59:10Z) - Learning Implicit 3D Representations of Dressed Humans from Sparse Views [31.584157304372425]
本論文では,スパースなカメラビューから服姿の人間の暗黙的な3D表現を学習するエンドツーエンドのアプローチを提案する。
実験では, 提案手法が, 定量的・定性的に標準データに対する技術水準を上回っていることを示した。
論文 参考訳(メタデータ) (2021-04-16T10:20:26Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。