論文の概要: Is Geometry Enough? An Evaluation of Landmark-Based Gaze Estimation
- arxiv url: http://arxiv.org/abs/2603.24724v1
- Date: Wed, 25 Mar 2026 18:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.942126
- Title: Is Geometry Enough? An Evaluation of Landmark-Based Gaze Estimation
- Title(参考訳): 幾何は十分か?ランドマークに基づく視線推定の評価
- Authors: Daniele Agostinelli, Thomas Agostinelli, Andrea Generosi, Maura Mengoni,
- Abstract要約: 出現に基づく視線推定は、しばしば深層畳み込みニューラルネットワーク(CNN)に依存する
顔のランドマークに基づく幾何学的手法は軽量な代替手段であるが、その性能限界と一般化能力は現代のベンチマークでは未定である。
3つの大規模データセットからランドマークを抽出および正規化するための標準化パイプラインを導入する。
- 参考スコア(独自算出の注目度): 1.1666234644810893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Appearance-based gaze estimation frequently relies on deep Convolutional Neural Networks (CNNs). These models are accurate, but computationally expensive and act as "black boxes", offering little interpretability. Geometric methods based on facial landmarks are a lightweight alternative, but their performance limits and generalization capabilities remain underexplored in modern benchmarks. In this study, we conduct a comprehensive evaluation of landmark-based gaze estimation. We introduce a standardized pipeline to extract and normalize landmarks from three large-scale datasets (Gaze360, ETH-XGaze, and GazeGene) and train lightweight regression models, specifically Extreme Gradient Boosted trees and two neural architectures: a holistic Multi-Layer Perceptron (MLP) and a siamese MLP designed to capture binocular geometry. We find that landmark-based models exhibit lower performance in within-domain evaluation, likely due to noise introduced into the datasets by the landmark detector. Nevertheless, in cross-domain evaluation, the proposed MLP architectures show generalization capabilities comparable to those of ResNet18 baselines. These findings suggest that sparse geometric features encode sufficient information for robust gaze estimation, paving the way for efficient, interpretable, and privacy-friendly edge applications. The source code and generated landmark-based datasets are available at https://github.com/daniele-agostinelli/LandmarkGaze.git.
- Abstract(参考訳): 出現に基づく視線推定は、しばしば深層畳み込みニューラルネットワーク(CNN)に依存する。
これらのモデルは正確だが計算に高価であり、「ブラックボックス」として機能し、解釈性はほとんどない。
顔のランドマークに基づく幾何学的手法は軽量な代替手段であるが、その性能限界と一般化能力は現代のベンチマークでは未定である。
本研究ではランドマークに基づく視線推定の包括的評価を行う。
本稿では,3つの大規模データセット(Gaze360,ETH-XGaze,GazeGene)からランドマークを抽出・正規化するための標準化されたパイプラインを導入し,両眼形状を捉えるために設計されたシアムMDPと,超高次ブーストツリーと2つのニューラルアーキテクチャを訓練する。
ランドマークに基づくモデルは、ランドマーク検出器によってデータセットに導入されたノイズのため、ドメイン内の評価において低い性能を示す。
それでも、クロスドメイン評価では、提案されたMLPアーキテクチャはResNet18ベースラインに匹敵する一般化能力を示している。
これらの結果から、スパーク幾何学的特徴は、堅牢な視線推定に十分な情報をエンコードし、効率的、解釈可能、プライバシーに優しいエッジアプリケーションへの道を開くことが示唆された。
ソースコードと生成されたランドマークベースのデータセットはhttps://github.com/daniele-agostinelli/LandmarkGaze.gitで公開されている。
関連論文リスト
- GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning [36.725822223732635]
位置(ポイント)エンコーディングのための学習フレームワークとベンチマークであるTorchSpatialを提案する。
TorchSpatialには3つの重要なコンポーネントが含まれている: 1) 一般的に認識されている15のロケーションエンコーダを統合する統合されたロケーションエンコーダフレームワーク、2) LocBenchベンチマークタスクは7つのジオアウェアイメージ分類と10のジオアウェアイメージ回帰データセットを含む。
論文 参考訳(メタデータ) (2024-06-21T21:33:16Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Strengthening structural baselines for graph classification using Local
Topological Profile [0.0]
本稿では,グラフ分類に広く用いられている構造的ベースラインを形成するトポロジカルグラフ記述子Local Degree Profile (LDP) の解析について述べる。
そこで我々は,新たな集中度尺度と局所記述子を用いて LDP を拡張したローカルトポロジカルプロファイル (adam) と呼ばれる新しいベースラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-01T08:59:58Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Rethinking Network Design and Local Geometry in Point Cloud: A Simple
Residual MLP Framework [55.40001810884942]
我々は、洗練された局所幾何学的抽出器を組み込んだ純粋な残留ネットワークPointMLPを導入するが、それでも非常に競争力がある。
実世界のScanObjectNNデータセットでは,従来のベストメソッドを3.3%の精度で上回ります。
最新のCurveNetと比較して、PointMLPは2倍速く、テストは7倍速く、ModelNet40ベンチマークではより正確である。
論文 参考訳(メタデータ) (2022-02-15T01:39:07Z) - Spelunking the Deep: Guaranteed Queries for General Neural Implicit
Surfaces [35.438964954948574]
この研究は、広範囲の既存アーキテクチャに対して、一般的なニューラル暗黙関数でクエリを直接実行するための新しいアプローチを示す。
私たちのキーとなるツールは、ニューラルネットワークへのレンジ分析の適用であり、ネットワークの出力を領域を越えてバウンドするために自動演算ルールを使用します。
得られた境界を用いて、レイキャスト、交差試験、空間階層の構築、高速メッシュ抽出、最近点評価などのクエリを開発する。
論文 参考訳(メタデータ) (2022-02-05T00:37:08Z) - Deep Implicit Surface Point Prediction Networks [49.286550880464866]
暗黙の関数としての3次元形状の深い神経表現は、高忠実度モデルを生成することが示されている。
本稿では,CSP(Nest Surface-point)表現と呼ばれる新しい種類の暗黙の表現を用いて,そのような曲面をモデル化する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-10T14:31:54Z) - Exploiting Local Geometry for Feature and Graph Construction for Better
3D Point Cloud Processing with Graph Neural Networks [22.936590869919865]
グラフニューラルネットワークの一般枠組みにおける点表現と局所近傍グラフ構築の改善を提案する。
提案されたネットワークは、トレーニングの収束を高速化する。
分類のための40%のより少ないエポック。
論文 参考訳(メタデータ) (2021-03-28T21:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。