論文の概要: Unsupervised Gaze-aware Contrastive Learning with Subject-specific
Condition
- arxiv url: http://arxiv.org/abs/2309.04506v1
- Date: Fri, 8 Sep 2023 09:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:56:27.514176
- Title: Unsupervised Gaze-aware Contrastive Learning with Subject-specific
Condition
- Title(参考訳): 教師なしゲーズ対応コントラスト学習と主観的条件
- Authors: Lingyu Du, Xucong Zhang, Guohao Lan
- Abstract要約: ConGazeは、教師なしの方法で被験者間の一般的な視線認識表現を学習する、対照的な学習ベースのフレームワークである。
視線特性を保存し、視線一貫性を維持するために、視線特異的なデータ拡張を導入する。
我々はまた、共有特徴抽出器に視線認識と汎用表現を学習させる新しい主題条件投影モジュールを考案した。
- 参考スコア(独自算出の注目度): 6.547550920819356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Appearance-based gaze estimation has shown great promise in many applications
by using a single general-purpose camera as the input device. However, its
success is highly depending on the availability of large-scale well-annotated
gaze datasets, which are sparse and expensive to collect. To alleviate this
challenge we propose ConGaze, a contrastive learning-based framework that
leverages unlabeled facial images to learn generic gaze-aware representations
across subjects in an unsupervised way. Specifically, we introduce the
gaze-specific data augmentation to preserve the gaze-semantic features and
maintain the gaze consistency, which are proven to be crucial for effective
contrastive gaze representation learning. Moreover, we devise a novel
subject-conditional projection module that encourages a share feature extractor
to learn gaze-aware and generic representations. Our experiments on three
public gaze estimation datasets show that ConGaze outperforms existing
unsupervised learning solutions by 6.7% to 22.5%; and achieves 15.1% to 24.6%
improvement over its supervised learning-based counterpart in cross-dataset
evaluations.
- Abstract(参考訳): 外観に基づく視線推定は、単一の汎用カメラを入力デバイスとして用いることで、多くのアプリケーションで大きな可能性を秘めている。
しかし、その成功は、収集が貧弱で費用がかかる大規模な well-annotated gaze データセットの可用性に大きく依存している。
この課題を緩和するために,ラベルのない顔画像を利用して,教師なしの方法で被写体間の一般的な視線認識表現を学習する,コンガゼ(congaze)を提案する。
具体的には,視線特徴の保存と視線一貫性の維持のために,視線固有のデータ拡張を導入し,効果的な対比的視線表現学習に不可欠であることが証明された。
さらに,共有特徴抽出器に視線認識と汎用表現の学習を促す,新しい主題条件投影モジュールを考案した。
3つの公的な視線推定データセットの実験により、ConGazeは既存の教師なし学習ソリューションを6.7%から22.5%で上回り、教師付き学習ベースであるクロスデータセット評価よりも15.1%から24.6%改善した。
関連論文リスト
- VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Semi-supervised Contrastive Regression for Estimation of Eye Gaze [0.609170287691728]
本稿では、視線方向推定のための半教師付きコントラスト学習フレームワークを開発する。
小さなラベル付きガゼデータセットにより、このフレームワークは、目に見えない顔画像であっても、一般化されたソリューションを見つけることができる。
コントラスト回帰フレームワークは, 視線推定に用いられているいくつかの手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-05T04:11:38Z) - Contrastive Representation Learning for Gaze Estimation [8.121462458089143]
ガゼコントラスト学習(Gaze Contrastive Learning, GazeCLR)という,視線推定のためのコントラスト表現学習フレームワークを提案する。
その結果, GazeCLR は領域間視線推定の性能を向上し,17.2% の相対的改善が得られた。
GazeCLRフレームワークは、数ショット評価のための最先端の表現学習手法と競合する。
論文 参考訳(メタデータ) (2022-10-24T17:01:18Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - FreeGaze: Resource-efficient Gaze Estimation via Frequency Domain
Contrastive Learning [1.240096657086732]
FreeGazeは、教師なしの視線表現学習のためのリソース効率のよいフレームワークである。
我々はFreeGazeが既存の教師付き学習ベースアプローチと同等の視線推定精度を実現できることを示す。
論文 参考訳(メタデータ) (2022-09-14T14:51:52Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - PureGaze: Purifying Gaze Feature for Generalizable Gaze Estimation [12.076469954457007]
未知対象領域のクロスドメイン視線推定における領域一般化問題に取り組む。
具体的には,視線特徴の浄化による領域一般化を実現する。
視線を浄化するためのプラグアンドプレイ自己対向フレームワークを設計します。
論文 参考訳(メタデータ) (2021-03-24T13:22:00Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。