論文の概要: Gaze Estimation with Eye Region Segmentation and Self-Supervised
Multistream Learning
- arxiv url: http://arxiv.org/abs/2112.07878v1
- Date: Wed, 15 Dec 2021 04:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 14:01:14.265243
- Title: Gaze Estimation with Eye Region Segmentation and Self-Supervised
Multistream Learning
- Title(参考訳): 視領域分割と自己監督型マルチストリーム学習による視線推定
- Authors: Zunayed Mahmud, Paul Hungler, Ali Etemad
- Abstract要約: 本稿では、視線推定のための頑健な視線表現を学習する新しいマルチストリームネットワークを提案する。
まず,目に見える眼球と虹彩をシミュレーターを用いて詳述した眼球領域マスクを含む合成データセットを作成する。
次に、U-Net型モデルを用いて視線領域分割を行い、実際の画像の視線領域マスクを生成する。
- 参考スコア(独自算出の注目度): 8.422257363944295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel multistream network that learns robust eye representations
for gaze estimation. We first create a synthetic dataset containing eye region
masks detailing the visible eyeball and iris using a simulator. We then perform
eye region segmentation with a U-Net type model which we later use to generate
eye region masks for real-world eye images. Next, we pretrain an eye image
encoder in the real domain with self-supervised contrastive learning to learn
generalized eye representations. Finally, this pretrained eye encoder, along
with two additional encoders for visible eyeball region and iris, are used in
parallel in our multistream framework to extract salient features for gaze
estimation from real-world images. We demonstrate the performance of our method
on the EYEDIAP dataset in two different evaluation settings and achieve
state-of-the-art results, outperforming all the existing benchmarks on this
dataset. We also conduct additional experiments to validate the robustness of
our self-supervised network with respect to different amounts of labeled data
used for training.
- Abstract(参考訳): 本稿では,視線推定のためのロバストな視線表現を学習するマルチストリームネットワークを提案する。
まず,シミュレータを用いて眼球と虹彩を詳述した眼領域マスクを含む合成データセットを作成する。
次に、U-Net型モデルを用いて視線領域分割を行い、実際の視線画像の視線領域マスクを生成する。
次に、自己教師付きコントラスト学習を用いて実領域の眼画像エンコーダを事前訓練し、一般化された眼表現を学習する。
最後に、この前訓練されたアイエンコーダと、可視眼球領域と虹彩の2つの追加エンコーダをマルチストリームフレームワークで並列に使用し、実世界画像から視線推定のためのサルエント特徴を抽出する。
我々は,EYEDIAPデータセット上での手法の性能を2つの異なる評価設定で実証し,既存のベンチマークよりも高い結果を得た。
また、トレーニングに使用するラベル付きデータの量に応じて、自己教師付きネットワークの堅牢性を検証するための追加実験も行います。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - RAZE: Region Guided Self-Supervised Gaze Representation Learning [5.919214040221055]
RAZEは、非注釈の顔画像データを利用する地域誘導型自己教師型gAZE表現学習フレームワークである。
Ize-Netはカプセル層ベースのCNNアーキテクチャで、リッチアイ表現を効率的に捉えることができる。
論文 参考訳(メタデータ) (2022-08-04T06:23:49Z) - Multistream Gaze Estimation with Anatomical Eye Region Isolation by
Synthetic to Real Transfer Learning [24.872143206600185]
眼解剖情報を利用して視線表現を学習する新しいニューラルネットワークMSGazeNetを提案する。
当社のフレームワークは,3つの視線推定データセットにおいて,最先端の7.57%,1.85%を超えている。
論文 参考訳(メタデータ) (2022-06-18T17:57:32Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - EllSeg-Gen, towards Domain Generalization for head-mounted eyetracking [19.913297057204357]
このようなアーティファクトの存在にもかかわらず、畳み込みネットワークは視線特徴の抽出に優れていることを示す。
複数のデータセットでトレーニングされた単一モデルのパフォーマンスを、個々のデータセットでトレーニングされたモデルのプールと比較する。
その結果, 眼球画像を用いたモデルでは, マルチセットトレーニングにより, 外観の多様性が向上することが示唆された。
論文 参考訳(メタデータ) (2022-05-04T08:35:52Z) - Bayesian Eye Tracking [63.21413628808946]
モデルに基づく視線追跡は、目の特徴検出エラーの影響を受けやすい。
モデルベースアイトラッキングのためのベイズフレームワークを提案する。
提案手法は,最先端のモデルベースおよび学習ベースの手法と比較して,一般化能力の大幅な向上を示す。
論文 参考訳(メタデータ) (2021-06-25T02:08:03Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - RIT-Eyes: Rendering of near-eye images for eye-tracking applications [3.4481343795011226]
ビデオベースの視線追跡のためのディープニューラルネットワークは、ノイズの多い環境、迷路反射、低解像度に対するレジリエンスを実証している。
これらのネットワークをトレーニングするには、手動でアノテートした画像が多数必要である。
本研究では, アクティブな変形可能な虹彩, 非球性角膜, 網膜反射, 視線調整眼球の変形, 点滅などの特徴を付加することにより, 従来よりも優れた合成眼球画像生成プラットフォームを提案する。
論文 参考訳(メタデータ) (2020-06-05T19:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。