論文の概要: MTGLS: Multi-Task Gaze Estimation with Limited Supervision
- arxiv url: http://arxiv.org/abs/2110.12100v1
- Date: Sat, 23 Oct 2021 00:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 15:40:53.616505
- Title: MTGLS: Multi-Task Gaze Estimation with Limited Supervision
- Title(参考訳): MTGLS:限定スーパービジョンによるマルチタスクゲーズ推定
- Authors: Shreya Ghosh, Munawar Hayat, Abhinav Dhall, Jarrod Knibbe
- Abstract要約: MTGLS:リミテッド・スーパービジョンを用いたマルチタスク・ゲイズ推定フレームワーク。
MTGLS:リミテッド・スーパービジョンを用いたマルチタスク・ゲイズ推定フレームワークを提案する。
提案手法はCAVE(6.43%)およびGaze360(6.59%)の教師なし最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 27.57636769596276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust gaze estimation is a challenging task, even for deep CNNs, due to the
non-availability of large-scale labeled data. Moreover, gaze annotation is a
time-consuming process and requires specialized hardware setups. We propose
MTGLS: a Multi-Task Gaze estimation framework with Limited Supervision, which
leverages abundantly available non-annotated facial image data. MTGLS distills
knowledge from off-the-shelf facial image analysis models, and learns strong
feature representations of human eyes, guided by three complementary auxiliary
signals: (a) the line of sight of the pupil (i.e. pseudo-gaze) defined by the
localized facial landmarks, (b) the head-pose given by Euler angles, and (c)
the orientation of the eye patch (left/right eye). To overcome inherent noise
in the supervisory signals, MTGLS further incorporates a noise distribution
modelling approach. Our experimental results show that MTGLS learns highly
generalized representations which consistently perform well on a range of
datasets. Our proposed framework outperforms the unsupervised state-of-the-art
on CAVE (by 6.43%) and even supervised state-of-the-art methods on Gaze360 (by
6.59%) datasets.
- Abstract(参考訳): 大規模ラベル付きデータの非可用性のため、深いCNNであっても、ロバストな視線推定は難しい作業である。
さらに、注視アノテーションは時間を要するプロセスであり、特別なハードウェア設定を必要とする。
MTGLS:Limited Supervisionを用いたマルチタスク・ゲイズ推定フレームワークを提案する。
MTGLSは、市販の顔画像解析モデルから知識を抽出し、3つの補助信号で導かれる人間の目の特徴表現を学習する。
(a)局所的な顔のランドマークによって定義される瞳孔の視線(即ち疑似ガゼ)
b) オイラー角による頭部の配置,及び
(c)眼斑の向き(左右の目)
監視信号の固有ノイズを克服するため、mtglsはさらにノイズ分布モデリング手法を取り入れている。
実験の結果,MTGLS は,一連のデータセットで常に良好に機能する高度に一般化された表現を学習していることがわかった。
提案するフレームワークはCAVEの教師なしの最先端(6.43%)と、Gaze360(6.59%)データセットの教師なしの最先端メソッドよりも優れています。
関連論文リスト
- Mask as Supervision: Leveraging Unified Mask Information for Unsupervised 3D Pose Estimation [26.630702699374194]
マスクを教師なし3次元ポーズ推定の監督として活用する統合フレームワークを提案する。
我々は、アノテーションのないデータの処理を可能にする、完全に教師なしの方法で人間の骨格を整理する。
実験により,Human3.6MとMPI-INF-3DHPデータセットを用いた現状のポーズ推定性能を示す。
論文 参考訳(メタデータ) (2023-12-12T08:08:34Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - A distribution-dependent Mumford-Shah model for unsupervised
hyperspectral image segmentation [3.2116198597240846]
本稿では、新しい教師なしハイパースペクトルセグメンテーションフレームワークを提案する。
これは、MNF(Minimum Noise Fraction)変換によって、デノゲーションと次元の低減ステップから始まる。
我々は、高スペクトルデータの課題に対処するために、新しい頑健な分布依存型インジケータ機能を備えたMS関数を実装した。
論文 参考訳(メタデータ) (2022-03-28T19:57:14Z) - A Synthesis-Based Approach for Thermal-to-Visible Face Verification [105.63410428506536]
本稿では,ARL-VTFおよびTUFTSマルチスペクトル顔データセット上での最先端性能を実現するアルゴリズムを提案する。
MILAB-VTF(B)も提案する。
論文 参考訳(メタデータ) (2021-08-21T17:59:56Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。