論文の概要: Towards Self-Supervised Gaze Estimation
- arxiv url: http://arxiv.org/abs/2203.10974v1
- Date: Mon, 21 Mar 2022 13:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 17:27:10.239799
- Title: Towards Self-Supervised Gaze Estimation
- Title(参考訳): 自己監督型迷路推定に向けて
- Authors: Arya Farkhondeh, Cristina Palmero, Simone Scardapane, Sergio Escalera
- Abstract要約: オンラインクラスタリングに基づく自己教師型アプローチSwAVの同種版SwATを提案する。
既存のベンチマークで、クロスデータセットおよびデータセット内評価タスクを最大57%、25%改善しました。
- 参考スコア(独自算出の注目度): 32.91601919228028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent joint embedding-based self-supervised methods have surpassed standard
supervised approaches on various image recognition tasks such as image
classification. These self-supervised methods aim at maximizing agreement
between features extracted from two differently transformed views of the same
image, which results in learning an invariant representation with respect to
appearance and geometric image transformations. However, the effectiveness of
these approaches remains unclear in the context of gaze estimation, a
structured regression task that requires equivariance under geometric
transformations (e.g., rotations, horizontal flip). In this work, we propose
SwAT, an equivariant version of the online clustering-based self-supervised
approach SwAV, to learn more informative representations for gaze estimation.
We identify the most effective image transformations for self-supervised
pretraining and demonstrate that SwAT, with ResNet-50 and supported with
uncurated unlabeled face images, outperforms state-of-the-art gaze estimation
methods and supervised baselines in various experiments. In particular, we
achieve up to 57% and 25% improvements in cross-dataset and within-dataset
evaluation tasks on existing benchmarks (ETH-XGaze, Gaze360, and MPIIFaceGaze).
- Abstract(参考訳): 近年, 画像分類などの画像認識タスクにおいて, 標準教師あり手法を超越している。
これらの自己教師付き手法は、同一画像の2つの異なる変換されたビューから抽出された特徴間の一致を最大化することを目的としている。
しかしながら、これらのアプローチの有効性は、幾何学的変換(回転、水平フリップなど)の下で等分散を必要とする構造的回帰タスクである視線推定の文脈においていまだ明らかではない。
本研究では,オンラインクラスタリングに基づく自己教師型アプローチSwAVの同種版SwATを提案する。
自己教師付き事前学習における最も効果的な画像変換を特定し、resnet-50でswatが未作成の顔画像をサポートし、最先端の視線推定手法や教師付きベースラインを様々な実験で上回っていることを示す。
特に,既存のベンチマーク(ETH-XGaze,Gaze360,MPIIFaceGaze)において,クロスデータセットおよびデータ内評価タスクの最大57%と25%の改善を実現している。
関連論文リスト
- Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Merging Multiple Datasets for Improved Appearance-Based Gaze Estimation [10.682719521609743]
2段階のTransformer-based Gaze-Feature Fusion (TTGF) 法では、トランスフォーマーを使用して、両眼と顔の情報を別々にマージし、両眼にマージする。
提案手法は,各データセットにGaze Adaption Moduleを適用して,単一の共有推定器から推定した推定値を補正することにより,アノテーションの不一致を処理する。
論文 参考訳(メタデータ) (2024-09-02T02:51:40Z) - Contrastive Representation Learning for Gaze Estimation [8.121462458089143]
ガゼコントラスト学習(Gaze Contrastive Learning, GazeCLR)という,視線推定のためのコントラスト表現学習フレームワークを提案する。
その結果, GazeCLR は領域間視線推定の性能を向上し,17.2% の相対的改善が得られた。
GazeCLRフレームワークは、数ショット評価のための最先端の表現学習手法と競合する。
論文 参考訳(メタデータ) (2022-10-24T17:01:18Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Distribution Estimation to Automate Transformation Policies for
Self-Supervision [61.55875498848597]
近年のビジュアル・セルフ・スーパービジョンでは、ラベルを変換または拡張された入力画像に割り当てることで、プリテキスト・タスクと呼ばれる模倣された分類対象が確立されている。
データセットにすでに存在する画像変換は、そのような自己教師付き表現を学習する上で、より効果的でない可能性があることが観察された。
本稿では,入力データセットに存在しない変換を自動的に検出する,生成逆ネットワークに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T04:40:00Z) - Multi-view Contrastive Coding of Remote Sensing Images at Pixel-level [5.64497799927668]
この制限を克服するために、ラベルのないマルチビュー設定に基づく画素単位のコントラスト的アプローチを提案する。
擬似媒介ResUnetは、シフトした正のペアから特徴を整列することを目的とした表現を学ぶために訓練される。
その結果,最先端のマルチビューコントラスト法よりも効率と精度が向上した。
論文 参考訳(メタデータ) (2021-05-18T13:28:46Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - Transformation Consistency Regularization- A Semi-Supervised Paradigm
for Image-to-Image Translation [18.870983535180457]
本稿では,画像から画像への変換において,より困難な状況に陥るトランスフォーメーション一貫性の規則化を提案する。
我々は,画像の着色,分解,超解像の3つの異なる応用に対して,アルゴリズムの有効性を評価する。
提案手法はデータ効率が著しく向上し,画像再構成を行うにはラベル付きサンプルの約10~20%しか必要としない。
論文 参考訳(メタデータ) (2020-07-15T17:41:35Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。