論文の概要: Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities
- arxiv url: http://arxiv.org/abs/2406.08379v4
- Date: Mon, 25 Nov 2024 09:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:33.656673
- Title: Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities
- Title(参考訳): 迷路への注視:熟練した人間の活動の自我中心的なビデオにおける教師なしの誤診検出のためのアイ・ゲイズの利用
- Authors: Michele Mazzamuto, Antonino Furnari, Yoichi Sato, Giovanni Maria Farinella,
- Abstract要約: 我々は、視線信号の解析を通して、自我中心ビデオにおける教師なし誤り検出の課題に対処する。
眼球運動が被写体操作活動に密接に従うという観察に基づいて,視線信号が誤検出をどの程度支援できるかを評価する。
予測された視線軌道と観測された視線軌道の矛盾は、誤りを特定する指標として機能する。
- 参考スコア(独自算出の注目度): 25.049754180292034
- License:
- Abstract: We address the challenge of unsupervised mistake detection in egocentric video of skilled human activities through the analysis of gaze signals. While traditional methods rely on manually labeled mistakes, our approach does not require mistake annotations, hence overcoming the need of domain-specific labeled data. Based on the observation that eye movements closely follow object manipulation activities, we assess to what extent eye-gaze signals can support mistake detection, proposing to identify deviations in attention patterns measured through a gaze tracker with respect to those estimated by a gaze prediction model. Since predicting gaze in video is characterized by high uncertainty, we propose a novel gaze completion task, where eye fixations are predicted from visual observations and partial gaze trajectories, and contribute a novel gaze completion approach which explicitly models correlations between gaze information and local visual tokens. Inconsistencies between predicted and observed gaze trajectories act as an indicator to identify mistakes. Experiments highlight the effectiveness of the proposed approach in different settings, with relative gains up to +14%, +11%, and +5% in EPIC-Tent, HoloAssist and IndustReal respectively, remarkably matching results of supervised approaches without seeing any labels. We further show that gaze-based analysis is particularly useful in the presence of skilled actions, low action execution confidence, and actions requiring hand-eye coordination and object manipulation skills. Our method is ranked first on the HoloAssist Mistake Detection challenge.
- Abstract(参考訳): 我々は、目視信号の分析を通じて、熟練した人間の活動の自我中心的なビデオにおいて、教師なしの誤り検出の課題に対処する。
従来のメソッドは手動でラベル付けされたミスに依存していますが、私たちのアプローチはミスアノテーションを必要としないため、ドメイン固有のラベル付きデータの必要性を克服します。
眼球運動が物体操作活動に密接に追従する観察に基づいて、視線予測モデルにより推定されたものに対して、視線追跡器によって測定された注意パターンの偏差を識別し、視線信号が誤検出をどの程度サポートするかを評価する。
映像における視線予測は不確実性が高いことが特徴であるため,視覚的観察と部分的な視線軌跡から視線固定を予測し,視線情報と局所的な視線トークンとの相関関係を明示的にモデル化する新しい視線完備化手法を提案する。
予測された視線軌道と観測された視線軌道の矛盾は、誤りを特定する指標として機能する。
実験では、それぞれEPIC-Tent、HoloAssist、IndustRealで+14%、+11%、+5%まで上昇し、ラベルを見ずに教師付きアプローチの結果と著しく一致している。
さらに、目視に基づく分析は、熟練した行動、低い行動実行の信頼度、目視調整と物体操作のスキルを必要とする行動の存在下で特に有用であることを示す。
本手法はHoloAssist Mistake Detection Challengeで第1位にランクされている。
関連論文リスト
- Learning Unsupervised Gaze Representation via Eye Mask Driven Information Bottleneck [36.255590251433844]
本研究は,教師なし・自己監督型視線事前学習フレームワークを提案する。
これは全顔の枝に、視線アノテーションを使わずに低次元の視線埋め込みを学習させ、協調的な特徴コントラストと圧縮モジュールを通して学習させる。
このフレームワークのコアには、視線関連情報をフルフェイスブランチからアイメイドのオートエンコーダに絞り込む、交互に目が当たらないマスキングトレーニングスキームがある。
論文 参考訳(メタデータ) (2024-06-29T04:35:08Z) - OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising [49.86409475232849]
軌道予測はコンピュータビジョンと自律運転の基本である。
この分野における既存のアプローチは、しばしば正確で完全な観測データを仮定する。
本稿では,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T18:30:29Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Bayesian Eye Tracking [63.21413628808946]
モデルに基づく視線追跡は、目の特徴検出エラーの影響を受けやすい。
モデルベースアイトラッキングのためのベイズフレームワークを提案する。
提案手法は,最先端のモデルベースおよび学習ベースの手法と比較して,一般化能力の大幅な向上を示す。
論文 参考訳(メタデータ) (2021-06-25T02:08:03Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Integrating Human Gaze into Attention for Egocentric Activity
Recognition [40.517438760096056]
本研究では,人間の視線を時間的注意に組み込むことにより,自我中心の行動認識を実現するための効果的な確率的アプローチを提案する。
位置は固定点を不確かさをモデル化するために構造化された離散潜在変数として表現する。
予測された視線位置は、認識性能を向上させるための情報的注意手段を提供するために使用される。
論文 参考訳(メタデータ) (2020-11-08T08:02:30Z) - MLGaze: Machine Learning-Based Analysis of Gaze Error Patterns in
Consumer Eye Tracking Systems [0.0]
本研究では,市販眼球追跡装置が生成する視線誤差パターンを機械学習アルゴリズムを用いて検討した。
異なる誤差源が視線データ特性に与える影響は、視線検査やデータ統計によってほとんど区別できないが、機械学習モデルは、異なる誤差源の影響を特定し、これらの条件による視線エラーレベルの変動を予測することに成功している。
論文 参考訳(メタデータ) (2020-05-07T23:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。