論文の概要: Real-time Appearance-based Gaze Estimation for Open Domains
- arxiv url: http://arxiv.org/abs/2603.26945v1
- Date: Fri, 27 Mar 2026 19:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.705161
- Title: Real-time Appearance-based Gaze Estimation for Open Domains
- Title(参考訳): 実時間出現に基づく開領域の視線推定
- Authors: Zhenhao Li, Zheng Liu, Seunghyun Lee, Amin Fadaeinejad, Yuanhao Yu,
- Abstract要約: 本稿では,人手による付加的なデータを必要としない,高機能なAGEフレームワークを提案する。
異方性データセット間ラベル偏差の影響を軽減するため、マルチタスク学習問題として視線回帰を再構成する。
我々のMobileNetベースの軽量モデル一般化は、最先端(SOTA)のUniGaze-Hと競合する性能を実現する。
- 参考スコア(独自算出の注目度): 15.195617974731766
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Appearance-based gaze estimation (AGE) has achieved remarkable performance in constrained settings, yet we reveal a significant generalization gap where existing AGE models often fail in practical, unconstrained scenarios, particularly those involving facial wearables and poor lighting conditions. We attribute this failure to two core factors: limited image diversity and inconsistent label fidelity across different datasets, especially along the pitch axis. To address these, we propose a robust AGE framework that enhances generalization without requiring additional human-annotated data. First, we expand the image manifold via an ensemble of augmentation techniques, including synthesis of eyeglasses, masks, and varied lighting. Second, to mitigate the impact of anisotropic inter-dataset label deviation, we reformulate gaze regression as a multi-task learning problem, incorporating multi-view supervised contrastive (SupCon) learning, discretized label classification, and eye-region segmentation as auxiliary objectives. To rigorously validate our approach, we curate new benchmark datasets designed to evaluate gaze robustness under challenging conditions, a dimension largely overlooked by existing evaluation protocols. Our MobileNet-based lightweight model achieves generalization performance competitive with the state-of-the-art (SOTA) UniGaze-H, while utilizing less than 1\% of its parameters, enabling high-fidelity, real-time gaze tracking on mobile devices.
- Abstract(参考訳): 外観に基づく視線推定(AGE)は、制約された設定で顕著な性能を達成しているが、既存のAGEモデルが現実的で制約のないシナリオ、特に顔のウェアラブルや照明条件の悪いシナリオでしばしば失敗する大きな一般化のギャップを明らかにする。
この失敗は、画像の多様性の制限と、異なるデータセット、特にピッチ軸に沿った不整合ラベルの忠実さの2つの要因に起因している。
これらの問題に対処するために,人手による付加的なデータを必要とすることなく,一般化を促進できる堅牢なAGEフレームワークを提案する。
まず、眼鏡、マスク、様々な照明の合成を含む拡張技法のアンサンブルにより、画像多様体を拡張します。
第2に、異方性データセット間ラベル偏差の影響を軽減するため、マルチタスク学習問題として、多視点教師付きコントラスト学習(SupCon)、識別ラベル分類、視覚領域分割を補助目的として組み込んで、視線回帰を再構成する。
提案手法を厳格に検証するために,既存の評価プロトコルでほとんど見落とされ,課題条件下での視線堅牢性を評価するために設計された新しいベンチマークデータセットをキュレートする。
我々のMobileNetベースの軽量モデルは、そのパラメータの1/%未満を活用しながら、最先端(SOTA)のUniGaze-Hと競合する一般化性能を実現し、モバイルデバイス上での高忠実でリアルタイムな視線追跡を可能にする。
関連論文リスト
- OmniGaze: Reward-inspired Generalizable Gaze Estimation In The Wild [104.57404324262556]
現在の3次元視線推定法は、多様なデータ領域にまたがる一般化に苦慮している。
OmniGazeは3次元視線推定のための半教師付きフレームワークである。
OmniGazeは5つのデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-15T15:19:52Z) - Unsupervised Dynamic Feature Selection for Robust Latent Spaces in Vision Tasks [5.167904179040144]
本稿では,非教師付き動的特徴選択(DFS)を用いた潜在表現の強化手法を提案する。
提案手法は,各インスタンスに対して,画像中の誤認や冗長な情報を識別・削除し,最も関連性の高い特徴だけが潜時空間に寄与することを保証する。
画像データセットを用いて行った実験では、教師なしDSSを備えたモデルが、様々なタスクにおける一般化性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-10-02T07:46:59Z) - Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training [12.680014448486242]
自己教師付き事前学習による視線推定に,大規模な画像データセットを活用するUniGazeを提案する。
本実験により,意味的タスクのための自己教師型アプローチは,視線推定に適用した場合に失敗することが明らかとなった。
コストのかかるラベル付きデータへの依存を最小限に抑えながら、UniGazeは複数のデータ領域にわたる一般化を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-04T13:24:23Z) - Improving Domain Generalization on Gaze Estimation via Branch-out Auxiliary Regularization [3.3539987257923247]
ブランチアウト補助正規化(BAR)は、ターゲットドメインデータに直接アクセスすることなく、視線推定の一般化能力を高めるように設計されている。
Barは2つの補助的な整合性正規化ブランチを統合している。ひとつは環境変動に対処するために強化サンプルを使用するもので、もうひとつは、一貫した視線特徴の学習を促進するために、視線方向を正のソース領域サンプルと整列するものだ。
論文 参考訳(メタデータ) (2024-05-02T16:26:37Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Semi-supervised Contrastive Regression for Estimation of Eye Gaze [0.609170287691728]
本稿では、視線方向推定のための半教師付きコントラスト学習フレームワークを開発する。
小さなラベル付きガゼデータセットにより、このフレームワークは、目に見えない顔画像であっても、一般化されたソリューションを見つけることができる。
コントラスト回帰フレームワークは, 視線推定に用いられているいくつかの手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-05T04:11:38Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。