論文の概要: Gaze Estimation Approach Using Deep Differential Residual Network
- arxiv url: http://arxiv.org/abs/2208.04298v1
- Date: Mon, 8 Aug 2022 17:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:44:06.206420
- Title: Gaze Estimation Approach Using Deep Differential Residual Network
- Title(参考訳): ディープディファレンシャル残差ネットワークを用いた視線推定手法
- Authors: Longzhao Huang, Yujie Li, Xu Wang, Haoyu Wang, Ahmed Bouridane, Ahmad
Chaddad
- Abstract要約: 両眼画像の差分情報を利用するために,新たな損失関数を組み合わせた差分残差モデル(DRNet)を提案する。
DRNetは目の特徴だけを考慮すると、最先端の視線推定法より$angular-error$4.57と6.14で優れている。
- 参考スコア(独自算出の注目度): 14.277069184728193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze estimation, which is a method to determine where a person is looking at
given the person's full face, is a valuable clue for understanding human
intention. Similarly to other domains of computer vision, deep learning (DL)
methods have gained recognition in the gaze estimation domain. However, there
are still gaze calibration problems in the gaze estimation domain, thus
preventing existing methods from further improving the performances. An
effective solution is to directly predict the difference information of two
human eyes, such as the differential network (Diff-Nn). However, this solution
results in a loss of accuracy when using only one inference image. We propose a
differential residual model (DRNet) combined with a new loss function to make
use of the difference information of two eye images. We treat the difference
information as auxiliary information. We assess the proposed model (DRNet)
mainly using two public datasets (1) MpiiGaze and (2) Eyediap. Considering only
the eye features, DRNet outperforms the state-of-the-art gaze estimation
methods with $angular-error$ of 4.57 and 6.14 using MpiiGaze and Eyediap
datasets, respectively. Furthermore, the experimental results also demonstrate
that DRNet is extremely robust to noise images.
- Abstract(参考訳): 視線推定は、人の顔の全体像がどこにあるのかを判断する手法であり、人間の意図を理解する上で貴重な手がかりである。
コンピュータビジョンの他の領域と同様に、ディープラーニング(DL)手法は、視線推定領域で認識されている。
しかし、視線推定領域にはまだ視線校正の問題があり、既存の手法がさらなる性能向上を妨げている。
有効な解法は、ディファレンシャルネットワーク(Diff-Nn)のような2つの人間の目の違い情報を直接予測することである。
しかし、この解は1つの推測画像のみを使用すると精度が低下する。
両眼画像の差分情報を利用するために,新たな損失関数を組み合わせた差分残差モデル(DRNet)を提案する。
我々は差分情報を補助情報として扱う。
MpiiGaze と (2) Eyediap の2つの公開データセットを用いて,提案モデル (DRNet) の評価を行った。
DRNetは目の特徴だけを考慮すると、MpiiGaze と Eyediap のデータセットを使用して、それぞれ $angular-error$ 4.57 と 6.14 で最先端の視線推定手法より優れている。
さらに,実験結果から,DRNetはノイズ画像に対して極めて堅牢であることが示された。
関連論文リスト
- Merging Multiple Datasets for Improved Appearance-Based Gaze Estimation [10.682719521609743]
2段階のTransformer-based Gaze-Feature Fusion (TTGF) 法では、トランスフォーマーを使用して、両眼と顔の情報を別々にマージし、両眼にマージする。
提案手法は,各データセットにGaze Adaption Moduleを適用して,単一の共有推定器から推定した推定値を補正することにより,アノテーションの不一致を処理する。
論文 参考訳(メタデータ) (2024-09-02T02:51:40Z) - Equipping Diffusion Models with Differentiable Spatial Entropy for Low-Light Image Enhancement [7.302792947244082]
本研究では,決定論的画素間比較から統計的視点へ焦点を移す新しい手法を提案する。
中心となる考え方は、損失関数に空間エントロピーを導入して、予測と目標の分布差を測定することである。
具体的には,拡散モデルにエントロピーを装備し,L1ベースノイズマッチング損失よりも高精度で知覚品質の向上を図っている。
論文 参考訳(メタデータ) (2024-04-15T12:35:10Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - CbwLoss: Constrained Bidirectional Weighted Loss for Self-supervised
Learning of Depth and Pose [13.581694284209885]
光度差は、未ラベルのモノクロビデオから深度とカメラのポーズを推定するためにニューラルネットワークを訓練するために使用される。
本稿では,アフィン変換とビュー合成によって生じる流れ場と深さ構造の違いを利用して,移動物体とオクルージョンを取り扱う。
ネットワークを追加することなく、より意味的な情報と文脈的な情報を持つ特徴の差を測定することにより、テクスチャレス領域がモデル最適化に与える影響を緩和する。
論文 参考訳(メタデータ) (2022-12-12T12:18:24Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - AnoDFDNet: A Deep Feature Difference Network for Anomaly Detection [6.508649912734565]
本稿では,畳み込みニューラルネットワークと視覚変換器を用いた高速列車画像の新たな異常検出(AD)手法を提案する。
提案手法は,同じ領域の異なる時間に撮影された2つの画像の異常な差を検出する。
論文 参考訳(メタデータ) (2022-03-29T02:24:58Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。