論文の概要: Weakly-Supervised Physically Unconstrained Gaze Estimation
- arxiv url: http://arxiv.org/abs/2105.09803v1
- Date: Thu, 20 May 2021 14:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:33:12.759582
- Title: Weakly-Supervised Physically Unconstrained Gaze Estimation
- Title(参考訳): 弱教師付き身体的無拘束視線推定
- Authors: Rakshit Kothari, Shalini De Mello, Umar Iqbal, Wonmin Byeon, Seonwook
Park, Jan Kautz
- Abstract要約: 我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
- 参考スコア(独自算出の注目度): 80.66438763587904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge for physically unconstrained gaze estimation is acquiring
training data with 3D gaze annotations for in-the-wild and outdoor scenarios.
In contrast, videos of human interactions in unconstrained environments are
abundantly available and can be much more easily annotated with frame-level
activity labels. In this work, we tackle the previously unexplored problem of
weakly-supervised gaze estimation from videos of human interactions. We
leverage the insight that strong gaze-related geometric constraints exist when
people perform the activity of "looking at each other" (LAEO). To acquire
viable 3D gaze supervision from LAEO labels, we propose a training algorithm
along with several novel loss functions especially designed for the task. With
weak supervision from two large scale CMU-Panoptic and AVA-LAEO activity
datasets, we show significant improvements in (a) the accuracy of
semi-supervised gaze estimation and (b) cross-domain generalization on the
state-of-the-art physically unconstrained in-the-wild Gaze360 gaze estimation
benchmark. We open source our code at
https://github.com/NVlabs/weakly-supervised-gaze.
- Abstract(参考訳): 物理的に制約のない視線推定の大きな課題は、3次元視線アノテーションを用いたトレーニングデータを取得することである。
対照的に、制約のない環境での人間のインタラクションのビデオは豊富に利用可能であり、フレームレベルのアクティビティラベルでより簡単に注釈を付けることができる。
本研究では,人間のインタラクションのビデオから弱教師付き視線推定の未解決問題に取り組む。
我々は、人々がお互いを見つめる(LAEO)活動を行うときに、強い視線に関連する幾何学的制約が存在するという洞察を活用する。
LAEOラベルから実効的な3D視線監視を実現するために,特にタスク用に設計されたいくつかの新しい損失関数とともに,トレーニングアルゴリズムを提案する。
2つの大規模CMU-Panoptic と AVA-LAEO のアクティビティデータセットからの弱い監視により、(a) 半教師付き視線推定の精度と(b) 最先端の物理的に制約のないGaze360視線推定ベンチマークにおけるクロスドメイン一般化の大幅な改善を示す。
私たちはコードをhttps://github.com/nvlabs/weakly-supervised-gazeでオープンソースにしています。
関連論文リスト
- Learning Unsupervised Gaze Representation via Eye Mask Driven Information Bottleneck [36.255590251433844]
本研究は,教師なし・自己監督型視線事前学習フレームワークを提案する。
これは全顔の枝に、視線アノテーションを使わずに低次元の視線埋め込みを学習させ、協調的な特徴コントラストと圧縮モジュールを通して学習させる。
このフレームワークのコアには、視線関連情報をフルフェイスブランチからアイメイドのオートエンコーダに絞り込む、交互に目が当たらないマスキングトレーニングスキームがある。
論文 参考訳(メタデータ) (2024-06-29T04:35:08Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - MTGLS: Multi-Task Gaze Estimation with Limited Supervision [27.57636769596276]
MTGLS:リミテッド・スーパービジョンを用いたマルチタスク・ゲイズ推定フレームワーク。
MTGLS:リミテッド・スーパービジョンを用いたマルチタスク・ゲイズ推定フレームワークを提案する。
提案手法はCAVE(6.43%)およびGaze360(6.59%)の教師なし最先端手法よりも優れている。
論文 参考訳(メタデータ) (2021-10-23T00:20:23Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Integrating Human Gaze into Attention for Egocentric Activity
Recognition [40.517438760096056]
本研究では,人間の視線を時間的注意に組み込むことにより,自我中心の行動認識を実現するための効果的な確率的アプローチを提案する。
位置は固定点を不確かさをモデル化するために構造化された離散潜在変数として表現する。
予測された視線位置は、認識性能を向上させるための情報的注意手段を提供するために使用される。
論文 参考訳(メタデータ) (2020-11-08T08:02:30Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。