論文の概要: Eyes Wide Unshut: Unsupervised Mistake Detection in Egocentric Procedural Video by Detecting Unpredictable Gaze
- arxiv url: http://arxiv.org/abs/2406.08379v3
- Date: Tue, 30 Jul 2024 09:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 21:43:34.804307
- Title: Eyes Wide Unshut: Unsupervised Mistake Detection in Egocentric Procedural Video by Detecting Unpredictable Gaze
- Title(参考訳): 目が広いアンシャット:予測不能な迷路を検出することで、自己中心型プロシージャビデオにおける教師なしの誤検出
- Authors: Michele Mazzamuto, Antonino Furnari, Giovanni Maria Farinella,
- Abstract要約: 本研究では,人間活動のビデオにおける誤り検出のための教師なし手法を提案する。
対象が手順の実行時に誤りを犯している場合、その注意パターンは正常性から逸脱する、と仮定する。
我々は、入力ビデオから予測される視線軌跡と、視線追跡装置を介して収集された地中真相視線信号とを比較した。
- 参考スコア(独自算出の注目度): 13.99137623722021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the challenge of unsupervised mistake detection in egocentric procedural video through the analysis of gaze signals. Traditional supervised mistake detection methods rely on manually labeled mistakes, and hence suffer from domain-dependence and scalability issues. We introduce an unsupervised method for detecting mistakes in videos of human activities, overcoming the challenges of domain-specific requirements and the need for annotated data. We postulate that, when a subject is making a mistake in the execution of a procedure, their attention patterns will deviate from normality. We hence propose to detect mistakes by comparing gaze trajectories predicted from input video with ground truth gaze signals collected through a gaze tracker. Since predicting gaze in video is characterized by high uncertainty, we propose a novel \textit{gaze completion task}, which aims to predict gaze from visual observations and partial gaze trajectories. We further contribute a \textit{gaze completion approach} based on a Gaze-Frame Correlation module to explicitly model the correlation between gaze information and each local visual token. Inconsistencies between the predicted and observed gaze trajectories act as an indicator for identifying mistakes. Experiments on the EPIC-Tent, HoloAssist and IndustReal datasets showcase the effectiveness of the proposed approach as compared to unsupervised and one-class techniques. Our method is ranked first on the HoloAssist Mistake Detection challenge.
- Abstract(参考訳): 本稿では,視線信号の解析による自己中心型手続きビデオにおける教師なし誤り検出の課題に対処する。
従来の教師付きミス検出手法は手動でラベル付けされたミスに依存しており、ドメイン依存性やスケーラビリティの問題に悩まされている。
本研究では,人間活動のビデオにおける誤り検出の教師なし手法を導入し,ドメイン固有要件の課題と注釈付きデータの必要性を克服する。
対象が手順の実行時に誤りを犯している場合、その注意パターンは正常性から逸脱する、と仮定する。
そこで我々は,入力ビデオから予測される視線軌跡と,視線追跡装置から収集した地中真相視線信号とを比較し,誤りを検出することを提案する。
映像における視線予測は不確実性が高いのが特徴であるため,視覚的視線と部分的な視線軌跡から視線を予測することを目的とした,新しい「textit{gaze completion task」を提案する。
視線情報と各局所的視覚トークンの相関関係を明示的にモデル化するために,Gaze-Frame correlationモジュールをベースとした‘textit{gaze completion approach’ も提案する。
予測された視線軌道と観測された視線軌道の矛盾は、誤りを特定する指標として機能する。
EPIC-Tent, HoloAssist, IndustRealの各データセットの実験では, 教師なし, ワンクラスの手法と比較して, 提案手法の有効性が示された。
本手法はHoloAssist Mistake Detection Challengeで第1位にランクされている。
関連論文リスト
- Learning Unsupervised Gaze Representation via Eye Mask Driven Information Bottleneck [36.255590251433844]
本研究は,教師なし・自己監督型視線事前学習フレームワークを提案する。
これは全顔の枝に、視線アノテーションを使わずに低次元の視線埋め込みを学習させ、協調的な特徴コントラストと圧縮モジュールを通して学習させる。
このフレームワークのコアには、視線関連情報をフルフェイスブランチからアイメイドのオートエンコーダに絞り込む、交互に目が当たらないマスキングトレーニングスキームがある。
論文 参考訳(メタデータ) (2024-06-29T04:35:08Z) - OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising [49.86409475232849]
軌道予測はコンピュータビジョンと自律運転の基本である。
この分野における既存のアプローチは、しばしば正確で完全な観測データを仮定する。
本稿では,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T18:30:29Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Bayesian Eye Tracking [63.21413628808946]
モデルに基づく視線追跡は、目の特徴検出エラーの影響を受けやすい。
モデルベースアイトラッキングのためのベイズフレームワークを提案する。
提案手法は,最先端のモデルベースおよび学習ベースの手法と比較して,一般化能力の大幅な向上を示す。
論文 参考訳(メタデータ) (2021-06-25T02:08:03Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Integrating Human Gaze into Attention for Egocentric Activity
Recognition [40.517438760096056]
本研究では,人間の視線を時間的注意に組み込むことにより,自我中心の行動認識を実現するための効果的な確率的アプローチを提案する。
位置は固定点を不確かさをモデル化するために構造化された離散潜在変数として表現する。
予測された視線位置は、認識性能を向上させるための情報的注意手段を提供するために使用される。
論文 参考訳(メタデータ) (2020-11-08T08:02:30Z) - MLGaze: Machine Learning-Based Analysis of Gaze Error Patterns in
Consumer Eye Tracking Systems [0.0]
本研究では,市販眼球追跡装置が生成する視線誤差パターンを機械学習アルゴリズムを用いて検討した。
異なる誤差源が視線データ特性に与える影響は、視線検査やデータ統計によってほとんど区別できないが、機械学習モデルは、異なる誤差源の影響を特定し、これらの条件による視線エラーレベルの変動を予測することに成功している。
論文 参考訳(メタデータ) (2020-05-07T23:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。