論文の概要: DVGaze: Dual-View Gaze Estimation
- arxiv url: http://arxiv.org/abs/2308.10310v1
- Date: Sun, 20 Aug 2023 16:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:07:38.756246
- Title: DVGaze: Dual-View Gaze Estimation
- Title(参考訳): DVGaze:デュアルビューゲーズ推定
- Authors: Yihua Cheng and Feng Lu
- Abstract要約: 本稿では、視線推定のためのデュアルビュー視線推定ネットワーク(DV-Gaze)を提案する。
DV-Gazeは、ETH-XGazeとEVEデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.3539097295729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze estimation methods estimate gaze from facial appearance with a single
camera. However, due to the limited view of a single camera, the captured
facial appearance cannot provide complete facial information and thus
complicate the gaze estimation problem. Recently, camera devices are rapidly
updated. Dual cameras are affordable for users and have been integrated in many
devices. This development suggests that we can further improve gaze estimation
performance with dual-view gaze estimation. In this paper, we propose a
dual-view gaze estimation network (DV-Gaze). DV-Gaze estimates dual-view gaze
directions from a pair of images. We first propose a dual-view interactive
convolution (DIC) block in DV-Gaze. DIC blocks exchange dual-view information
during convolution in multiple feature scales. It fuses dual-view features
along epipolar lines and compensates for the original feature with the fused
feature. We further propose a dual-view transformer to estimate gaze from
dual-view features. Camera poses are encoded to indicate the position
information in the transformer. We also consider the geometric relation between
dual-view gaze directions and propose a dual-view gaze consistency loss for
DV-Gaze. DV-Gaze achieves state-of-the-art performance on ETH-XGaze and EVE
datasets. Our experiments also prove the potential of dual-view gaze
estimation. We release codes in https://github.com/yihuacheng/DVGaze.
- Abstract(参考訳): 視線推定法は1台のカメラで顔の外観から視線を推定する。
しかし、単一のカメラの視野が限られているため、捕獲された顔の外観は完全な顔情報を提供できず、視線推定問題を複雑にする。
近年、カメラ機器が急速に更新されている。
デュアルカメラはユーザーには手頃な価格であり、多くのデバイスに統合されている。
このことから,両視点視線推定による視線推定性能の向上が期待できる。
本稿では,デュアルビュー視線推定ネットワーク(DV-Gaze)を提案する。
DV-Gazeは2つの画像から2視点視線方向を推定する。
まず,DV-Gazeにおけるデュアルビュー対話型畳み込み(DIC)ブロックを提案する。
DICブロックは、複数の特徴尺度で畳み込み中に二重ビュー情報を交換する。
双対ビュー機能をエピポーラ線に沿って融合させ、元の特徴と融合した特徴を補う。
さらに,デュアルビュー機能から視線を推定するデュアルビュートランスを提案する。
カメラポーズは、トランスフォーマーの位置情報を示すためにエンコードされる。
また、両視点視線方向の幾何学的関係を考察し、DV-Gazeに対する両視点視線整合性損失を提案する。
DV-Gazeは、ETH-XGazeとEVEデータセット上で最先端のパフォーマンスを達成する。
また,両視点視線推定の可能性も実証した。
私たちはhttps://github.com/yihuacheng/dvgazeでコードをリリースします。
関連論文リスト
- GazeGen: Gaze-Driven User Interaction for Visual Content Generation [11.03973723295504]
本稿では,ユーザの視線で示される位置の視覚的コンテンツ(画像とビデオ)を生成するユーザインタラクションシステムであるGazeGenを紹介する。
オブジェクト検出と生成AIの高度な技術を使用して、GazeGenは画像オブジェクトの視線制御された画像の追加/削除、再配置、および表面物質の変化を実行し、静的イメージをビデオに変換する。
GazeGenの中心は、281Kパラメータしか持たない超軽量モデルであるDFT Gazeエージェントである。
論文 参考訳(メタデータ) (2024-11-07T00:22:38Z) - Merging Multiple Datasets for Improved Appearance-Based Gaze Estimation [10.682719521609743]
2段階のTransformer-based Gaze-Feature Fusion (TTGF) 法では、トランスフォーマーを使用して、両眼と顔の情報を別々にマージし、両眼にマージする。
提案手法は,各データセットにGaze Adaption Moduleを適用して,単一の共有推定器から推定した推定値を補正することにより,アノテーションの不一致を処理する。
論文 参考訳(メタデータ) (2024-09-02T02:51:40Z) - What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze Estimation [18.155092199205907]
本稿では,車内視線研究を進めるための3つの新しい要素について述べる。
まず、車内視線を捉えた先駆的なデータセットであるIVGazeを紹介する。
第2に、IVGazeを利用した車内視線推定に焦点を当てた。
第3に、GazeDPTRを拡張することで、視線ゾーン分類の新しい戦略を探求する。
論文 参考訳(メタデータ) (2024-03-23T01:22:15Z) - UVAGaze: Unsupervised 1-to-2 Views Adaptation for Gaze Estimation [10.412375913640224]
視線推定のための新しい1-view-to-2-views (1-to-2 view) 適応ソリューションを提案する。
本手法は、フレキシブルに配置されたデュアルカメラに対して、従来の単視点視線推定器に適応する。
実験により、シングルビュー推定器が双対ビューに適応すると、特にクロスデータセット設定において、はるかに高い精度が得られることが示された。
論文 参考訳(メタデータ) (2023-12-25T08:13:28Z) - Two-level Data Augmentation for Calibrated Multi-view Detection [51.5746691103591]
ビュー間のアライメントを保った新しいマルチビューデータ拡張パイプラインを導入する。
また,シーンレベルで直接適用された第2レベルの拡張を提案する。
単純なマルチビュー検出モデルと組み合わせることで、2レベル拡張パイプラインは既存のベースラインすべてより優れています。
論文 参考訳(メタデータ) (2022-10-19T17:55:13Z) - GazeOnce: Real-Time Multi-Person Gaze Estimation [18.16091280655655]
外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。
近年の深層学習に基づくアプローチは優れた性能を示すが,複数対人視線をリアルタイムに出力することはできない。
画像中の複数の顔に対する視線方向を同時に予測できるGazeOnceを提案する。
論文 参考訳(メタデータ) (2022-04-20T14:21:47Z) - Novel View Video Prediction Using a Dual Representation [51.58657840049716]
単一/複数ビューから入力されたビデオクリップのセットを考慮すれば,ネットワークは新たなビューからビデオを予測することができる。
提案手法では事前の知識は必要とせず,より広い角距離から最大45度まで映像を予測できる。
SSIMは26.1%、PSNRは13.6%、FVDスコアは60%向上した。
論文 参考訳(メタデータ) (2021-06-07T20:41:33Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Dual In-painting Model for Unsupervised Gaze Correction and Animation in
the Wild [82.42401132933462]
視線角度と頭部ポーズの正確なアノテーションを必要とせずに機能する解を提案する。
我々の手法は3つの新しいモジュールからなる: Gaze Correction Module (GCM)、 Gaze Animation Module (GAM)、 Pretrained Autoencoder Module (PAM)。
論文 参考訳(メタデータ) (2020-08-09T23:14:16Z) - ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head
Pose and Gaze Variation [52.5465548207648]
ETH-XGazeは100万以上の高解像度画像からなる新しい視線推定データセットである。
我々のデータセットは、異なる頭部ポーズと視線角度で視線推定手法のロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-31T04:15:53Z) - Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance [74.27389895574422]
本稿では,数値誘導と画像誘導の両方を利用した新しい視線リダイレクトフレームワークを提案する。
提案手法は,画像品質とリダイレクト精度の両方の観点から,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-07T01:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。