論文の概要: Integrating Human Gaze into Attention for Egocentric Activity
Recognition
- arxiv url: http://arxiv.org/abs/2011.03920v1
- Date: Sun, 8 Nov 2020 08:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:26:46.855486
- Title: Integrating Human Gaze into Attention for Egocentric Activity
Recognition
- Title(参考訳): Egocentric Activity Recognitionのための人間の視線統合注意
- Authors: Kyle Min, Jason J. Corso
- Abstract要約: 本研究では,人間の視線を時間的注意に組み込むことにより,自我中心の行動認識を実現するための効果的な確率的アプローチを提案する。
位置は固定点を不確かさをモデル化するために構造化された離散潜在変数として表現する。
予測された視線位置は、認識性能を向上させるための情報的注意手段を提供するために使用される。
- 参考スコア(独自算出の注目度): 40.517438760096056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well known that human gaze carries significant information about visual
attention. However, there are three main difficulties in incorporating the gaze
data in an attention mechanism of deep neural networks: 1) the gaze fixation
points are likely to have measurement errors due to blinking and rapid eye
movements; 2) it is unclear when and how much the gaze data is correlated with
visual attention; and 3) gaze data is not always available in many real-world
situations. In this work, we introduce an effective probabilistic approach to
integrate human gaze into spatiotemporal attention for egocentric activity
recognition. Specifically, we represent the locations of gaze fixation points
as structured discrete latent variables to model their uncertainties. In
addition, we model the distribution of gaze fixations using a variational
method. The gaze distribution is learned during the training process so that
the ground-truth annotations of gaze locations are no longer needed in testing
situations since they are predicted from the learned gaze distribution. The
predicted gaze locations are used to provide informative attentional cues to
improve the recognition performance. Our method outperforms all the previous
state-of-the-art approaches on EGTEA, which is a large-scale dataset for
egocentric activity recognition provided with gaze measurements. We also
perform an ablation study and qualitative analysis to demonstrate that our
attention mechanism is effective.
- Abstract(参考訳): 人間の視線が視覚的注意に関する重要な情報を持っていることはよく知られている。
しかし、深層ニューラルネットワークの注意機構に視線データを組み込むことには3つの大きな困難がある。
1)視線固定点には、点滅や急速眼球運動による測定誤差がある可能性が高い。
2) 視線データと視覚注意との関連性は, いつ及びどの程度であるかは明らかでない。
3) 現実の状況では視線データは必ずしも利用できない。
本研究では,人間の視線を時空間的注意と統合し,自己中心的活動認識を行うための効果的な確率的アプローチを提案する。
具体的には、視線固定点の位置を構造化された離散潜在変数として表現し、不確かさをモデル化する。
さらに,変分法を用いて視線固定の分布をモデル化する。
視線分布は、学習された視線分布から予測されるため、視線位置の接地真実アノテーションがテスト状況で不要になるように訓練過程中に学習される。
予測された視線位置は、認識性能を向上させるための情報的注意手段を提供するために使用される。
本手法は,egocentric activity recognitionのための大規模データセットであるegteaの,これまでの最先端のアプローチを上回っている。
また, 注意機構が有効であることを示すため, アブレーション研究と質的分析を行った。
関連論文リスト
- Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities [25.049754180292034]
我々は、視線信号の解析を通して、自我中心ビデオにおける教師なし誤り検出の課題に対処する。
眼球運動が被写体操作活動に密接に従うという観察に基づいて,視線信号が誤検出をどの程度支援できるかを評価する。
予測された視線軌道と観測された視線軌道の矛盾は、誤りを特定する指標として機能する。
論文 参考訳(メタデータ) (2024-06-12T16:29:45Z) - Bridging the Gap: Gaze Events as Interpretable Concepts to Explain Deep
Neural Sequence Models [0.7829352305480283]
本研究では,固定およびサケードに確立された視線事象検出アルゴリズムを用いる。
これらの事象が与える影響を定量的に評価し,その概念的影響を判断する。
論文 参考訳(メタデータ) (2023-04-12T10:15:31Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - PureGaze: Purifying Gaze Feature for Generalizable Gaze Estimation [12.076469954457007]
未知対象領域のクロスドメイン視線推定における領域一般化問題に取り組む。
具体的には,視線特徴の浄化による領域一般化を実現する。
視線を浄化するためのプラグアンドプレイ自己対向フレームワークを設計します。
論文 参考訳(メタデータ) (2021-03-24T13:22:00Z) - Wave Propagation of Visual Stimuli in Focus of Attention [77.4747032928547]
周囲の視覚環境の変化に対する迅速な反応は、計算資源を視覚領域の最も関連する場所に再配置する効率的な注意機構を必要とする。
本研究は, 営巣動物が提示する有効性と効率性を示す, 生物学的に有望な注目焦点モデルを提案する。
論文 参考訳(メタデータ) (2020-06-19T09:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。