論文の概要: Merging Multiple Datasets for Improved Appearance-Based Gaze Estimation
- arxiv url: http://arxiv.org/abs/2409.00912v1
- Date: Mon, 2 Sep 2024 02:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 08:21:03.165499
- Title: Merging Multiple Datasets for Improved Appearance-Based Gaze Estimation
- Title(参考訳): 外観に基づく視線推定改善のための複数データセットのマージ
- Authors: Liang Wu, Bertram E. Shi,
- Abstract要約: 2段階のTransformer-based Gaze-Feature Fusion (TTGF) 法では、トランスフォーマーを使用して、両眼と顔の情報を別々にマージし、両眼にマージする。
提案手法は,各データセットにGaze Adaption Moduleを適用して,単一の共有推定器から推定した推定値を補正することにより,アノテーションの不一致を処理する。
- 参考スコア(独自算出の注目度): 10.682719521609743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multiple datasets have been created for training and testing appearance-based gaze estimators. Intuitively, more data should lead to better performance. However, combining datasets to train a single esti-mator rarely improves gaze estimation performance. One reason may be differences in the experimental protocols used to obtain the gaze sam-ples, resulting in differences in the distributions of head poses, gaze an-gles, illumination, etc. Another reason may be the inconsistency between methods used to define gaze angles (label mismatch). We propose two innovations to improve the performance of gaze estimation by leveraging multiple datasets, a change in the estimator architecture and the intro-duction of a gaze adaptation module. Most state-of-the-art estimators merge information extracted from images of the two eyes and the entire face either in parallel or combine information from the eyes first then with the face. Our proposed Two-stage Transformer-based Gaze-feature Fusion (TTGF) method uses transformers to merge information from each eye and the face separately and then merge across the two eyes. We argue that this improves head pose invariance since changes in head pose affect left and right eye images in different ways. Our proposed Gaze Adaptation Module (GAM) method handles annotation inconsis-tency by applying a Gaze Adaption Module for each dataset to correct gaze estimates from a single shared estimator. This enables us to combine information across datasets despite differences in labeling. Our experi-ments show that these innovations improve gaze estimation performance over the SOTA both individually and collectively (by 10% - 20%). Our code is available at https://github.com/HKUST-NISL/GazeSetMerge.
- Abstract(参考訳): 外観に基づく視線推定器のトレーニングとテストのために、複数のデータセットが作成されている。
直感的には、より多くのデータがより良いパフォーマンスをもたらすはずです。
しかし、1つのエスティマターをトレーニングするためにデータセットを組み合わせることで、視線推定性能が向上することは滅多にない。
ひとつは、視線サムプルを得るための実験プロトコルの違いであり、その結果、頭部ポーズの分布、アングルの視線、照明などの違いが生じる可能性がある。
もう一つの理由は、視線角(ラベルミスマッチ)を定義する方法の矛盾である。
本稿では、複数のデータセット、推定器アーキテクチャの変更、および視線適応モジュールの導入による視線推定性能の向上のための2つのイノベーションを提案する。
ほとんどの最先端推定器は、2つの目と顔全体の画像から抽出された情報と平行に融合するか、最初に目からの情報と顔を組み合わせる。
提案手法では,2段階トランスフォーマーを用いたGaze-Feature Fusion (TTGF) 法を用いて,両眼と顔の情報を別々にマージし,両眼にマージする。
頭部ポーズの変化が左右の眼像に異なる影響を与えるため,頭部ポーズの変動が改善すると考えられる。
提案手法は,各データセットにGaze Adaption Moduleを適用して,単一の共有推定器から推定した推定値を補正することにより,アノテーションの不一致を処理する。
これにより、ラベル付けの違いに関わらず、データセット間で情報を結合することができます。
我々の経験から、これらのイノベーションは、個人と集団の両方(10%から20%)でSOTAの視線推定性能を改善することが示されています。
私たちのコードはhttps://github.com/HKUST-NISL/GazeSetMerge.comから入手可能です。
関連論文リスト
- S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - DealMVC: Dual Contrastive Calibration for Multi-view Clustering [78.54355167448614]
マルチビュークラスタリングのための新しいデュアルコントラストキャリブレーションネットワーク(DealMVC)を提案する。
まず、グローバルなクロスビュー特徴を得るための融合機構を設計し、その上で、ビュー特徴類似性グラフと高信頼な擬ラベルグラフを整列させることにより、グローバルなコントラストキャリブレーション損失を提案する。
トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。
論文 参考訳(メタデータ) (2023-08-17T14:14:28Z) - Towards Self-Supervised Gaze Estimation [32.91601919228028]
オンラインクラスタリングに基づく自己教師型アプローチSwAVの同種版SwATを提案する。
既存のベンチマークで、クロスデータセットおよびデータセット内評価タスクを最大57%、25%改善しました。
論文 参考訳(メタデータ) (2022-03-21T13:35:16Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - The Story in Your Eyes: An Individual-difference-aware Model for
Cross-person Gaze Estimation [24.833385815585405]
本研究では,人物別差分を明示的にモデル化することで,人物間視線予測タスクを目/顔画像で精査する手法を提案する。
具体的には、まず既存の手法を用いて、InitNetと呼ばれる早期の視線予測結果が得られると仮定する。
我々は,EVE,XGaze,MPIIGazeの3つの公開データセットに対して提案手法の有効性を検証し,提案手法がSOTA法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-27T10:14:10Z) - Adaptive Feature Fusion Network for Gaze Tracking in Mobile Tablets [19.739595664816164]
本稿では,モバイルタブレットで視線追跡を行う適応型機能融合ネットワーク(aff-net)を提案する。
Squeeze-and-Excitation 層を用いて外観の類似性に応じて2眼特徴を適応的に融合する。
GazeCaptureとMPIIFaceGazeのデータセットによる実験により,提案手法の性能は一貫して向上した。
論文 参考訳(メタデータ) (2021-03-20T07:16:10Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z) - Dual In-painting Model for Unsupervised Gaze Correction and Animation in
the Wild [82.42401132933462]
視線角度と頭部ポーズの正確なアノテーションを必要とせずに機能する解を提案する。
我々の手法は3つの新しいモジュールからなる: Gaze Correction Module (GCM)、 Gaze Animation Module (GAM)、 Pretrained Autoencoder Module (PAM)。
論文 参考訳(メタデータ) (2020-08-09T23:14:16Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。