論文の概要: TI-PREGO: Chain of Thought and In-Context Learning for Online Mistake Detection in PRocedural EGOcentric Videos
- arxiv url: http://arxiv.org/abs/2411.02570v1
- Date: Mon, 04 Nov 2024 20:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:00.575042
- Title: TI-PREGO: Chain of Thought and In-Context Learning for Online Mistake Detection in PRocedural EGOcentric Videos
- Title(参考訳): TI-PREGO: PRocedural EGOcentric Video におけるオンライン誤り検出のための思考と文脈学習の連鎖
- Authors: Leonardo Plini, Luca Scofano, Edoardo De Matteis, Guido Maria D'Amely di Melendugno, Alessandro Flaborea, Andrea Sanchietti, Giovanni Maria Farinella, Fabio Galasso, Antonino Furnari,
- Abstract要約: オンラインのオープンセットの手続きミスを効果的に検出する技術はない。
1つのブランチは、入力されたエゴセントリックビデオからステップ認識を連続的に行う。
もう1つは、認識モジュールの出力に基づいて将来のステップを予測します。
- 参考スコア(独自算出の注目度): 48.126793563151715
- License:
- Abstract: Identifying procedural errors online from egocentric videos is a critical yet challenging task across various domains, including manufacturing, healthcare, and skill-based training. The nature of such mistakes is inherently open-set, as unforeseen or novel errors may occur, necessitating robust detection systems that do not rely on prior examples of failure. Currently, however, no technique effectively detects open-set procedural mistakes online. We propose a dual branch architecture to address this problem in an online fashion: one branch continuously performs step recognition from the input egocentric video, while the other anticipates future steps based on the recognition module's output. Mistakes are detected as mismatches between the currently recognized action and the action predicted by the anticipation module. The recognition branch takes input frames, predicts the current action, and aggregates frame-level results into action tokens. The anticipation branch, specifically, leverages the solid pattern-matching capabilities of Large Language Models (LLMs) to predict action tokens based on previously predicted ones. Given the online nature of the task, we also thoroughly benchmark the difficulties associated with per-frame evaluations, particularly the need for accurate and timely predictions in dynamic online scenarios. Extensive experiments on two procedural datasets demonstrate the challenges and opportunities of leveraging a dual-branch architecture for mistake detection, showcasing the effectiveness of our proposed approach. In a thorough evaluation including recognition and anticipation variants and state-of-the-art models, our method reveals its robustness and effectiveness in online applications.
- Abstract(参考訳): エゴセントリックなビデオからオンラインの手続き的エラーを特定することは、製造業、医療、スキルベースのトレーニングなど、さまざまな領域で重要な課題である。
このようなミスの性質は本質的にオープンセットであり、予期せぬ、あるいは新しいエラーが発生する可能性があるため、失敗の以前の例に依存しない堅牢な検出システムが必要である。
しかし、現時点では、オンライン上のオープンセットの手続きミスを効果的に検出する技術はない。
本稿では,オンライン方式でこの問題に対処するデュアルブランチアーキテクチャを提案する。一方のブランチは,入力エゴセントリックなビデオからのステップ認識を連続的に実行し,他方のブランチは認識モジュールの出力に基づいて将来のステップを予測する。
現在認識されているアクションと予測モジュールによって予測されるアクションのミスマッチとして検出される。
認識ブランチは入力フレームを取得し、現在のアクションを予測し、フレームレベルの結果をアクショントークンに集約する。
予測ブランチは、特に、Large Language Models(LLM)のソリッドパターンマッチング機能を活用して、以前予測されたパターンに基づいてアクショントークンを予測する。
タスクのオンライン性を考えると、特に動的オンラインシナリオにおける正確でタイムリーな予測の必要性など、フレーム単位の評価に関する問題点を徹底的にベンチマークします。
2つの手続き的データセットに対する大規模な実験は、二重ブランチアーキテクチャを誤検出に活用することの課題と機会を示し、提案手法の有効性を示している。
認識と予測のバリエーションと最先端のモデルを含む徹底的な評価において,本手法はオンラインアプリケーションにおけるロバスト性と有効性を明らかにする。
関連論文リスト
- Few-Shot API Attack Detection: Overcoming Data Scarcity with GAN-Inspired Learning [9.035212370386846]
本稿では,NLP(Natural Language Processing)とGAN(Generative Adrialversa Network)にインスパイアされた新たな手法を提案する。
提案手法では,API要求の文脈的理解が向上し,従来の手法と比較して異常検出が改善された。
論文 参考訳(メタデータ) (2024-05-18T11:10:45Z) - A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series [17.08674819906415]
HILADは、人間とAIの動的かつ双方向なコラボレーションを促進するために設計された、新しいフレームワークである。
ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
論文 参考訳(メタデータ) (2024-05-06T07:44:07Z) - PREGO: online mistake detection in PRocedural EGOcentric videos [49.72812518471056]
自己中心型ビデオにおける誤り検出のための,最初のオンライン一級分類モデルであるPregoを提案する。
PreGOは、現在のアクションをモデル化するオンラインアクション認識コンポーネントと、次のアクションを予測するシンボリック推論モジュールに基づいている。
手続き的誤り検出のオンラインベンチマークに適応する2つの手続き的自己中心型ビデオデータセットであるAmbly101とEpic-tentについてPreGOを評価した。
論文 参考訳(メタデータ) (2024-04-02T13:27:28Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - EANet: Expert Attention Network for Online Trajectory Prediction [5.600280639034753]
Expert Attention Networkは、軌道予測のための完全なオンライン学習フレームワークである。
我々は,ネットワーク層の深さの異なる重みを調整し,勾配問題によるモデル更新が遅いことを回避し,専門家の注意を喚起する。
さらに,シナリオ変化に敏感な短期動作トレンドカーネル関数を提案する。
論文 参考訳(メタデータ) (2023-09-11T07:09:40Z) - ScatterUQ: Interactive Uncertainty Visualizations for Multiclass Deep Learning Problems [0.0]
ScatterUQは、ユーザがコンテキスト駆動の不確実性設定におけるモデルパフォーマンスをよりよく理解できるように、ターゲットの可視化を提供するインタラクティブシステムである。
本稿では,Fashion-MNISTを訓練した距離認識ニューラルネットワーク上でのマルチクラス画像分類におけるモデル不確実性を説明するために,ScatterUQの有効性を示す。
以上の結果から,ScatterUQシステムは任意のマルチクラスデータセットにスケールすべきであることが示唆された。
論文 参考訳(メタデータ) (2023-08-08T21:17:03Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。