論文の概要: RAZE: Region Guided Self-Supervised Gaze Representation Learning
- arxiv url: http://arxiv.org/abs/2208.02485v1
- Date: Thu, 4 Aug 2022 06:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:41:34.830451
- Title: RAZE: Region Guided Self-Supervised Gaze Representation Learning
- Title(参考訳): RAZE:地域指導型自己監督型迷路表現学習
- Authors: Neeru Dubey, Shreya Ghosh, Abhinav Dhall
- Abstract要約: RAZEは、非注釈の顔画像データを利用する地域誘導型自己教師型gAZE表現学習フレームワークである。
Ize-Netはカプセル層ベースのCNNアーキテクチャで、リッチアイ表現を効率的に捉えることができる。
- 参考スコア(独自算出の注目度): 5.919214040221055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic eye gaze estimation is an important problem in vision based
assistive technology with use cases in different emerging topics such as
augmented reality, virtual reality and human-computer interaction. Over the
past few years, there has been an increasing interest in unsupervised and
self-supervised learning paradigms as it overcomes the requirement of large
scale annotated data. In this paper, we propose RAZE, a Region guided
self-supervised gAZE representation learning framework which leverage from
non-annotated facial image data. RAZE learns gaze representation via auxiliary
supervision i.e. pseudo-gaze zone classification where the objective is to
classify visual field into different gaze zones (i.e. left, right and center)
by leveraging the relative position of pupil-centers. Thus, we automatically
annotate pseudo gaze zone labels of 154K web-crawled images and learn feature
representations via `Ize-Net' framework. `Ize-Net' is a capsule layer based CNN
architecture which can efficiently capture rich eye representation. The
discriminative behaviour of the feature representation is evaluated on four
benchmark datasets: CAVE, TabletGaze, MPII and RT-GENE. Additionally, we
evaluate the generalizability of the proposed network on two other downstream
task (i.e. driver gaze estimation and visual attention estimation) which
demonstrate the effectiveness of the learnt eye gaze representation.
- Abstract(参考訳): 視覚に基づくアシスト技術では、拡張現実、仮想現実、人間とコンピュータのインタラクションなど、さまざまな新興トピックのユースケースにおいて、自動視線推定は重要な問題である。
過去数年間、大規模な注釈付きデータの要求を克服するため、教師なし、自己教師なしの学習パラダイムへの関心が高まっている。
本稿では,非注釈顔画像データを利用した地域指導型自己教師型gAZE表現学習フレームワークRAZEを提案する。
razeは補助監督によって視線表現を学ぶ。すなわち、瞳孔中心の相対位置を利用して異なる視線領域(左、右、中央)に視野を分類することを目的としている疑似ガゼゾーン分類である。
そこで我々は154Kのウェブクローリング画像の擬似ガゼゾーンラベルを自動的にアノテートし, 'Ize-Net' フレームワークを介して特徴表現を学習する。
Ize-Netはカプセル層に基づくCNNアーキテクチャであり、リッチアイ表現を効率的に捉えることができる。
特徴表現の識別行動は、CAVE、TabletGaze、MPII、RT-GENEの4つのベンチマークデータセットで評価される。
さらに、学習した視線表現の有効性を示す2つの下流タスク(運転者視線推定と視線注意推定)において、提案したネットワークの一般化可能性を評価する。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。
年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。
実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-16T15:53:21Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Gaze Estimation with Eye Region Segmentation and Self-Supervised
Multistream Learning [8.422257363944295]
本稿では、視線推定のための頑健な視線表現を学習する新しいマルチストリームネットワークを提案する。
まず,目に見える眼球と虹彩をシミュレーターを用いて詳述した眼球領域マスクを含む合成データセットを作成する。
次に、U-Net型モデルを用いて視線領域分割を行い、実際の画像の視線領域マスクを生成する。
論文 参考訳(メタデータ) (2021-12-15T04:44:45Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。