論文の概要: Learning Unsupervised Gaze Representation via Eye Mask Driven Information Bottleneck
- arxiv url: http://arxiv.org/abs/2407.00315v1
- Date: Sat, 29 Jun 2024 04:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 05:31:09.913196
- Title: Learning Unsupervised Gaze Representation via Eye Mask Driven Information Bottleneck
- Title(参考訳): アイマスク駆動型情報ボトルネックによる教師なし迷路表現の学習
- Authors: Yangzhou Jiang, Yinxin Lin, Yaoming Wang, Teng Li, Bilian Ke, Bingbing Ni,
- Abstract要約: 本研究は,教師なし・自己監督型視線事前学習フレームワークを提案する。
これは全顔の枝に、視線アノテーションを使わずに低次元の視線埋め込みを学習させ、協調的な特徴コントラストと圧縮モジュールを通して学習させる。
このフレームワークのコアには、視線関連情報をフルフェイスブランチからアイメイドのオートエンコーダに絞り込む、交互に目が当たらないマスキングトレーニングスキームがある。
- 参考スコア(独自算出の注目度): 36.255590251433844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Appearance-based supervised methods with full-face image input have made tremendous advances in recent gaze estimation tasks. However, intensive human annotation requirement inhibits current methods from achieving industrial level accuracy and robustness. Although current unsupervised pre-training frameworks have achieved success in many image recognition tasks, due to the deep coupling between facial and eye features, such frameworks are still deficient in extracting useful gaze features from full-face. To alleviate above limitations, this work proposes a novel unsupervised/self-supervised gaze pre-training framework, which forces the full-face branch to learn a low dimensional gaze embedding without gaze annotations, through collaborative feature contrast and squeeze modules. In the heart of this framework is an alternating eye-attended/unattended masking training scheme, which squeezes gaze-related information from full-face branch into an eye-masked auto-encoder through an injection bottleneck design that successfully encourages the model to pays more attention to gaze direction rather than facial textures only, while still adopting the eye self-reconstruction objective. In the same time, a novel eye/gaze-related information contrastive loss has been designed to further boost the learned representation by forcing the model to focus on eye-centered regions. Extensive experimental results on several gaze benchmarks demonstrate that the proposed scheme achieves superior performances over unsupervised state-of-the-art.
- Abstract(参考訳): 近年の視線推定作業において,全顔画像入力による外観に基づく教師付き手法が大幅に進歩している。
しかしながら、集中的な人間のアノテーション要求は、現在の手法が産業レベルの精度と堅牢性を達成することを妨げている。
現在の教師なし事前学習フレームワークは多くの画像認識タスクで成功しているが、顔と目の特徴の深い結合のため、顔全体から有用な視線特徴を抽出するのにはまだ不十分である。
上記の制限を緩和するため、この研究は、新しい教師なし・自己監督型視線事前学習フレームワークを提案し、これは、全顔の枝に、視線アノテーションなしで低次元視線埋め込みを学習させ、協調的な特徴コントラストと圧縮モジュールを通して、学習させる。
この枠組みの核心は、視線関連情報をフルフェイスブランチからアイメイドのオートエンコーダに絞り込むことで、顔のテクスチャのみではなく、視線方向に注意を向けることに成功し、アイセルフコンストラクションの目標をまだ採用している。
同時に、新しい眼・視線関連情報と対照的な損失は、学習された表現をさらに促進するために設計され、眼中心領域に集中するよう強制された。
いくつかのベンチマークによる大規模な実験結果から,提案手法は教師なし状態よりも優れた性能を示すことが示された。
関連論文リスト
- Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities [25.049754180292034]
我々は、視線信号の解析を通して、自我中心ビデオにおける教師なし誤り検出の課題に対処する。
眼球運動が被写体操作活動に密接に従うという観察に基づいて,視線信号が誤検出をどの程度支援できるかを評価する。
予測された視線軌道と観測された視線軌道の矛盾は、誤りを特定する指標として機能する。
論文 参考訳(メタデータ) (2024-06-12T16:29:45Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Semi-supervised Contrastive Regression for Estimation of Eye Gaze [0.609170287691728]
本稿では、視線方向推定のための半教師付きコントラスト学習フレームワークを開発する。
小さなラベル付きガゼデータセットにより、このフレームワークは、目に見えない顔画像であっても、一般化されたソリューションを見つけることができる。
コントラスト回帰フレームワークは, 視線推定に用いられているいくつかの手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-05T04:11:38Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - Bayesian Eye Tracking [63.21413628808946]
モデルに基づく視線追跡は、目の特徴検出エラーの影響を受けやすい。
モデルベースアイトラッキングのためのベイズフレームワークを提案する。
提案手法は,最先端のモデルベースおよび学習ベースの手法と比較して,一般化能力の大幅な向上を示す。
論文 参考訳(メタデータ) (2021-06-25T02:08:03Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。
これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。
タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-23T11:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。