論文の概要: On estimating gaze by self-attention augmented convolutions
- arxiv url: http://arxiv.org/abs/2008.11055v2
- Date: Tue, 3 Nov 2020 13:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:00:01.063650
- Title: On estimating gaze by self-attention augmented convolutions
- Title(参考訳): 自己着脱拡大畳み込みによる視線推定について
- Authors: Gabriel Lefundes, Luciano Oliveira
- Abstract要約: 本稿では,学習した特徴の質を向上させるために,自己注意型拡張畳み込みに基づく新しいネットワークアーキテクチャを提案する。
私たちは、Attention-augmented ResNet(ARes-14)を2つの畳み込みバックボーンとして探求するフレームワークをARes-gazeと呼びました。
その結果,MPIIFaceGazeデータセットの最先端手法と比較して平均角誤差が2.38%減少し,EyeDiapデータセットの2位となった。
- 参考スコア(独自算出の注目度): 6.015556590955813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimation of 3D gaze is highly relevant to multiple fields, including but
not limited to interactive systems, specialized human-computer interfaces, and
behavioral research. Although recently deep learning methods have boosted the
accuracy of appearance-based gaze estimation, there is still room for
improvement in the network architectures for this particular task. Therefore we
propose here a novel network architecture grounded on self-attention augmented
convolutions to improve the quality of the learned features during the training
of a shallower residual network. The rationale is that self-attention mechanism
can help outperform deeper architectures by learning dependencies between
distant regions in full-face images. This mechanism can also create better and
more spatially-aware feature representations derived from the face and eye
images before gaze regression. We dubbed our framework ARes-gaze, which
explores our Attention-augmented ResNet (ARes-14) as twin convolutional
backbones. In our experiments, results showed a decrease of the average angular
error by 2.38% when compared to state-of-the-art methods on the MPIIFaceGaze
data set, and a second-place on the EyeDiap data set. It is noteworthy that our
proposed framework was the only one to reach high accuracy simultaneously on
both data sets.
- Abstract(参考訳): 3次元視線の推定は、対話システム、専門の人間-コンピュータインタフェース、行動研究など、複数の分野に非常に関係がある。
近年,深層学習により外観に基づく視線推定の精度が向上しているが,ネットワークアーキテクチャの改善の余地は依然として残っている。
そこで本論文では,より浅いネットワークの学習における学習特徴の質を向上させるために,自己着脱強化畳み込みに基づく新しいネットワークアーキテクチャを提案する。
セルフアテンション機構は、遠方の領域間の依存関係をフルフェイスイメージで学習することで、より深いアーキテクチャを上回ることができる、という根拠がある。
このメカニズムは、視線回帰の前に顔と目画像から派生した、より良く、より空間的に認識された特徴表現を生成することもできる。
私たちは、Attention-augmented ResNet(ARes-14)を2つの畳み込みバックボーンとして探求するフレームワークをARes-gazeと呼びました。
実験の結果,MPIIFaceGazeデータセットの最先端手法と比較して平均角誤差は2.38%減少し,EyeDiapデータセットの2位となった。
両データセットで同時に高い精度を達成したのは,提案フレームワークのみであることは注目に値する。
関連論文リスト
- Investigation of Architectures and Receptive Fields for Appearance-based
Gaze Estimation [29.154335016375367]
本稿では、ResNetアーキテクチャのいくつかの単純なパラメータをチューニングすることで、既存のガンマ推定タスクの最先端手法よりも優れていることを示す。
ETH-XGazeが3.64、MPIIFaceGazeが4.50、Gaze360が9.13の3つのデータセットで最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-18T14:41:51Z) - Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-08-10T14:32:18Z) - LocalEyenet: Deep Attention framework for Localization of Eyes [0.609170287691728]
我々は、エンドツーエンドにトレーニング可能な眼領域のみをローカライズするためのLocalEyenetという、粗大なアーキテクチャを提案している。
本モデルは,クロスデータセット評価やリアルタイム眼球の局所化において,優れた一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-13T06:35:45Z) - Explicitly incorporating spatial information to recurrent networks for
agriculture [4.583080280213959]
本稿では,深層畳み込みニューラルネットワークの分類を改善するための新しい手法を提案する。
利用可能なRGB-D画像とロボット・オドメトリーを利用してフレーム間特徴マップ空間登録を行う。
この情報は、その正確さと堅牢性を改善するために、繰り返し学習されたモデル内で融合される。
論文 参考訳(メタデータ) (2022-06-27T15:57:42Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - Learning Robust Feature Representations for Scene Text Detection [0.0]
本稿では、条件付きログを最大化するために、損失から導かれるネットワークアーキテクチャを提案する。
潜伏変数の層を複数の層に拡張することで、ネットワークは大規模に堅牢な機能を学ぶことができる。
実験では,提案アルゴリズムはリコール法と精度の両面で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-05-26T01:06:47Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。