論文の概要: Boosting Image-based Mutual Gaze Detection using Pseudo 3D Gaze
- arxiv url: http://arxiv.org/abs/2010.07811v2
- Date: Tue, 22 Dec 2020 17:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:18:35.002650
- Title: Boosting Image-based Mutual Gaze Detection using Pseudo 3D Gaze
- Title(参考訳): Pseudo 3D Gazeを用いた画像に基づく相互迷路検出の高速化
- Authors: Bardia Doosti, Ching-Hui Chen, Raviteja Vemulapalli, Xuhui Jia, Yukun
Zhu, Bradley Green
- Abstract要約: 相互視線検出は、人間の相互作用を理解する上で重要な役割を果たす。
本稿では,訓練期間中に補助的な3D視線推定タスクを用いて,性能向上のための簡易かつ効果的な手法を提案する。
相互の視線ラベルから推定される擬似3次元視線ラベルを用いて、3次元視線推定枝を訓練することにより、追加の表示コストなしで性能向上を実現する。
- 参考スコア(独自算出の注目度): 19.10872208787867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mutual gaze detection, i.e., predicting whether or not two people are looking
at each other, plays an important role in understanding human interactions. In
this work, we focus on the task of image-based mutual gaze detection, and
propose a simple and effective approach to boost the performance by using an
auxiliary 3D gaze estimation task during the training phase. We achieve the
performance boost without additional labeling cost by training the 3D gaze
estimation branch using pseudo 3D gaze labels deduced from mutual gaze labels.
By sharing the head image encoder between the 3D gaze estimation and the mutual
gaze detection branches, we achieve better head features than learned by
training the mutual gaze detection branch alone. Experimental results on three
image datasets show that the proposed approach improves the detection
performance significantly without additional annotations. This work also
introduces a new image dataset that consists of 33.1K pairs of humans annotated
with mutual gaze labels in 29.2K images.
- Abstract(参考訳): 相互視線検出、すなわち2人がお互いを見ているかどうかを予測することは、人間の相互作用を理解する上で重要な役割を果たす。
本研究では,画像に基づく相互視線検出の課題に焦点をあて,訓練期間中に補助的な3D視線推定タスクを用いて,その性能を高めるためのシンプルで効果的なアプローチを提案する。
相互の視線ラベルから推定される擬似3次元視線ラベルを用いて、3次元視線推定枝を訓練することにより、追加の表示コストなしで性能向上を実現する。
頭部画像エンコーダを3次元視線推定と相互視線検出枝とで共有することにより、相互視線検出枝のみを訓練して学習するよりも優れた頭部特徴を実現する。
3つの画像データセットの実験結果から,提案手法は追加アノテーションを使わずに検出性能を大幅に向上することが示された。
また、29.2k画像に相互の視線ラベルを付記した人間の33.1k対からなる新しい画像データセットも導入している。
関連論文リスト
- Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - An Empirical Study of Pseudo-Labeling for Image-based 3D Object
Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。
ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。
この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2022-08-15T12:17:46Z) - GazeOnce: Real-Time Multi-Person Gaze Estimation [18.16091280655655]
外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。
近年の深層学習に基づくアプローチは優れた性能を示すが,複数対人視線をリアルタイムに出力することはできない。
画像中の複数の顔に対する視線方向を同時に予測できるGazeOnceを提案する。
論文 参考訳(メタデータ) (2022-04-20T14:21:47Z) - Learning Hierarchical Graph Representation for Image Manipulation
Detection [50.04902159383709]
画像操作検出の目的は、画像内の操作された領域を特定し、特定することである。
最近のアプローチでは、画像に残っている改ざんするアーティファクトをキャプチャするために、洗練された畳み込みニューラルネットワーク(CNN)が採用されている。
本稿では2つの並列分岐からなる階層型グラフ畳み込みネットワーク(HGCN-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:25Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Controllable Continuous Gaze Redirection [47.15883248953411]
制御可能な視線リダイレクトのための新しいフレームワークであるInterpGazeを提案する。
我々のゴールは、ある人物の視線を基準画像に描かれたあらゆる視線方向へとリダイレクトすることである。
提案したInterpGazeは、画像の品質とリダイレクト精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-10-09T11:50:06Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Efficiently Guiding Imitation Learning Agents with Human Gaze [28.7222865388462]
我々は,3つの模擬学習手法を用いて訓練されたエージェントの性能を高めるために,人間のデモ隊の視線手がかりを使用する。
強化学習エージェントの注意とヒトの視線との類似性に基づいて, 視線データを計算的に効率的に活用するための新しいアプローチを提案する。
提案手法は,BCでは95%,BCOでは343%,T-REXでは390%,Atariゲームでは平均20以上のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-28T00:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。