論文の概要: A Coarse-to-Fine Adaptive Network for Appearance-Based Gaze Estimation
- arxiv url: http://arxiv.org/abs/2001.00187v1
- Date: Wed, 1 Jan 2020 10:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 09:29:04.025564
- Title: A Coarse-to-Fine Adaptive Network for Appearance-Based Gaze Estimation
- Title(参考訳): 外観に基づく視線推定のための粗視適応ネットワーク
- Authors: Yihua Cheng, Shiyao Huang, Fei Wang, Chen Qian, Feng Lu
- Abstract要約: 本稿では、顔画像から基本的な視線方向を推定し、それに対応する残差を眼画像から予測して精査する粗大な戦略を提案する。
我々は,粗大な適応ネットワークであるCA-Netを構築し,MPIIGazeとEyeDiapの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 24.8796573846653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human gaze is essential for various appealing applications. Aiming at more
accurate gaze estimation, a series of recent works propose to utilize face and
eye images simultaneously. Nevertheless, face and eye images only serve as
independent or parallel feature sources in those works, the intrinsic
correlation between their features is overlooked. In this paper we make the
following contributions: 1) We propose a coarse-to-fine strategy which
estimates a basic gaze direction from face image and refines it with
corresponding residual predicted from eye images. 2) Guided by the proposed
strategy, we design a framework which introduces a bi-gram model to bridge gaze
residual and basic gaze direction, and an attention component to adaptively
acquire suitable fine-grained feature. 3) Integrating the above innovations, we
construct a coarse-to-fine adaptive network named CA-Net and achieve
state-of-the-art performances on MPIIGaze and EyeDiap.
- Abstract(参考訳): 人間の視線は様々な用途に不可欠である。
より正確な視線推定を目的とした最近の一連の研究は、顔と眼の画像を同時に活用することを提案する。
それでも、顔と眼のイメージは、これらの作品において独立したまたは平行な特徴源としてのみ機能するが、それらの特徴間の固有の相関は見過ごされてしまう。
本稿では,以下の貢献を行う。
1)顔画像から基本的な視線方向を推定し,それに対応する残差を眼画像から予測する粗大な戦略を提案する。
2)提案手法を参考に,視線残差と基本的な視線方向を橋渡しするbi-gramモデルと,適切な細粒度特徴を適応的に獲得するための注意要素を提案する。
3) 上記の技術を統合し, 粗大な適応ネットワークであるCA-Netを構築し, MPIIGaze と EyeDiap の最先端性能を実現する。
関連論文リスト
- Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - Geometry-guided Cross-view Diffusion for One-to-many Cross-view Image Synthesis [48.945931374180795]
本稿では,対応する衛星画像から可視な地上画像を生成することを目的とした,クロスビュー合成のための新しいアプローチを提案する。
これらの課題を衛星間(Sat2Grd)と地上間(Grd2Sat)合成と呼ぶ。
論文 参考訳(メタデータ) (2024-12-04T13:47:51Z) - GazeFusion: Saliency-Guided Image Generation [50.37783903347613]
拡散モデルは、テキストプロンプトだけを前提として、前例のない画像生成能力を提供する。
本稿では,人間の視覚的注意機構のデータ先行を生成プロセスに組み込むためのサリエンシ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:01:35Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - Bipartite Graph Reasoning GANs for Person Pose and Facial Image
Synthesis [201.39323496042527]
本稿では、人物のポーズと顔画像合成という2つの課題に対して、生成的敵対ネットワーク(BiGraphGAN)を推論する新しい二部グラフを提案する。
提案するグラフ生成器は,ポーズ・ツー・ポーズ関係とポーズ・ツー・イメージ関係をモデル化する2つの新しいブロックから構成される。
論文 参考訳(メタデータ) (2022-11-12T18:27:00Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - Combining Attention with Flow for Person Image Synthesis [55.670135403481275]
本稿では,注目操作とフローベース操作を組み合わせた新しいモデルを提案する。
本モデルでは,アテンション操作を利用して正確なターゲット構造を生成するだけでなく,フローベース操作を用いてリアルなソーステクスチャをサンプリングする。
論文 参考訳(メタデータ) (2021-08-04T03:05:39Z) - Adaptive Feature Fusion Network for Gaze Tracking in Mobile Tablets [19.739595664816164]
本稿では,モバイルタブレットで視線追跡を行う適応型機能融合ネットワーク(aff-net)を提案する。
Squeeze-and-Excitation 層を用いて外観の類似性に応じて2眼特徴を適応的に融合する。
GazeCaptureとMPIIFaceGazeのデータセットによる実験により,提案手法の性能は一貫して向上した。
論文 参考訳(メタデータ) (2021-03-20T07:16:10Z) - One-shot Face Reenactment Using Appearance Adaptive Normalization [30.615671641713945]
本稿では,一発顔再現のための新しい生成的対向ネットワークを提案する。
1枚の顔画像を別のポーズ・アンド・エクスプレッションにアニメーションし、元の外観を保ちます。
論文 参考訳(メタデータ) (2021-02-08T03:36:30Z) - LNSMM: Eye Gaze Estimation With Local Network Share Multiview Multitask [7.065909514483728]
本稿では,視線点と視線方向を同時に推定する新しい手法を提案する。
本手法は,視線点と視線方向の2つの指標について,現在主流の手法であることを示す。
論文 参考訳(メタデータ) (2021-01-18T15:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。