論文の概要: LocalEyenet: Deep Attention framework for Localization of Eyes
- arxiv url: http://arxiv.org/abs/2303.12728v1
- Date: Mon, 13 Mar 2023 06:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 02:58:03.643426
- Title: LocalEyenet: Deep Attention framework for Localization of Eyes
- Title(参考訳): LocalEyenet:眼の局所化のための深い注意フレームワーク
- Authors: Somsukla Maiti and Akshansh Gupta
- Abstract要約: 我々は、エンドツーエンドにトレーニング可能な眼領域のみをローカライズするためのLocalEyenetという、粗大なアーキテクチャを提案している。
本モデルは,クロスデータセット評価やリアルタイム眼球の局所化において,優れた一般化能力を示す。
- 参考スコア(独自算出の注目度): 0.609170287691728
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Development of human machine interface has become a necessity for modern day
machines to catalyze more autonomy and more efficiency. Gaze driven human
intervention is an effective and convenient option for creating an interface to
alleviate human errors. Facial landmark detection is very crucial for designing
a robust gaze detection system. Regression based methods capacitate good
spatial localization of the landmarks corresponding to different parts of the
faces. But there are still scope of improvements which have been addressed by
incorporating attention.
In this paper, we have proposed a deep coarse-to-fine architecture called
LocalEyenet for localization of only the eye regions that can be trained
end-to-end. The model architecture, build on stacked hourglass backbone, learns
the self-attention in feature maps which aids in preserving global as well as
local spatial dependencies in face image. We have incorporated deep layer
aggregation in each hourglass to minimize the loss of attention over the depth
of architecture. Our model shows good generalization ability in cross-dataset
evaluation and in real-time localization of eyes.
- Abstract(参考訳): ヒューマン・マシン・インタフェースの開発は、現代の機械がより自律性と効率性を高めるために必要とされている。
迷路を駆動する人間の介入は、ヒューマンエラーを軽減するインターフェースを作成するための効果的で便利な選択肢である。
顔の目印検出は、堅牢な視線検出システムの設計に非常に重要である。
回帰に基づく手法は、顔の異なる部分に対応するランドマークの良好な空間的局在を容量化する。
しかし、注意を払って対処された改善の範囲はまだ残っている。
本稿では,エンドツーエンドでトレーニング可能な眼領域のみをローカライズするためのLocalEyenetという,粗大なアーキテクチャを提案する。
積み重ねられた砂時計のバックボーン上に構築されたモデルアーキテクチャは、顔画像内の局所的な空間依存だけでなく、グローバルを保つのに役立つフィーチャーマップの自己認識を学習する。
建築深度に対する注意の喪失を最小限に抑えるため,各時間ガラスに深層凝集体を組み込んだ。
本モデルでは, クロスデータセット評価およびリアルタイム眼球定位において, 良好な一般化能力を示す。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition [19.5702895176141]
野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
論文 参考訳(メタデータ) (2023-05-05T07:53:13Z) - ROIFormer: Semantic-Aware Region of Interest Transformer for Efficient
Self-Supervised Monocular Depth Estimation [6.923035780685481]
幾何認識表現強調のための効率的な局所適応アダプティブアテンション手法を提案する。
意味情報からの幾何学的手がかりを利用して局所適応的境界ボックスを学習し、教師なし特徴集合を導出する。
提案手法は, 自己教師型単分子深度推定タスクにおける新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-12-12T06:38:35Z) - Real-time Local Feature with Global Visual Information Enhancement [6.640269424085467]
現在のディープラーニングベースのローカル特徴アルゴリズムは、常に限定的な受容場を持つ畳み込みニューラルネットワーク(CNN)アーキテクチャを利用する。
提案手法では,軽量ネットワークにおいて,グローバルな視覚的手がかりを融合するグローバル拡張モジュールを提案する。
公開ベンチマークの実験では、この提案が視覚的干渉に対してかなりの堅牢性を達成し、同時にリアルタイムに実行できることが示されている。
論文 参考訳(メタデータ) (2022-11-20T13:44:20Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - Active Visual Localization in Partially Calibrated Environments [35.48595012305253]
人間は、目立った視覚的な手がかりやランドマークに追われて地図を使わずに、自分自身をしっかりとローカライズすることができる。
この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。
このような能力はロボットアプリケーションにおいて重要であるが、エージェントが部分的に調整された環境に晒される場合、非常に困難である。
合成データと実データの両方で構成された屋内シーンデータセットACR-6を提案し、アクティブビジュアルローカリゼーションのための困難なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2020-12-08T08:00:55Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - On estimating gaze by self-attention augmented convolutions [6.015556590955813]
本稿では,学習した特徴の質を向上させるために,自己注意型拡張畳み込みに基づく新しいネットワークアーキテクチャを提案する。
私たちは、Attention-augmented ResNet(ARes-14)を2つの畳み込みバックボーンとして探求するフレームワークをARes-gazeと呼びました。
その結果,MPIIFaceGazeデータセットの最先端手法と比較して平均角誤差が2.38%減少し,EyeDiapデータセットの2位となった。
論文 参考訳(メタデータ) (2020-08-25T14:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。