論文の概要: Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks
- arxiv url: http://arxiv.org/abs/2503.22405v2
- Date: Wed, 02 Apr 2025 04:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 09:56:37.796162
- Title: Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks
- Title(参考訳): 手続き的タスクにおける誤り検出のための複数の正規動作表現のモデル化
- Authors: Wei-Jin Huang, Yuan-Ming Li, Zhi-Wei Xia, Yu-Ming Tang, Kun-Yu Lin, Jian-Fang Hu, Wei-Shi Zheng,
- Abstract要約: 本稿では,手続き的活動における誤り検出のための適応多重正規表現(AMNAR)フレームワークを提案する。
AMNARはすべての有効な次のアクションを予測し、対応する正常なアクション表現を再構築する。
- 参考スコア(独自算出の注目度): 31.6874866836856
- License:
- Abstract: Error detection in procedural activities is essential for consistent and correct outcomes in AR-assisted and robotic systems. Existing methods often focus on temporal ordering errors or rely on static prototypes to represent normal actions. However, these approaches typically overlook the common scenario where multiple, distinct actions are valid following a given sequence of executed actions. This leads to two issues: (1) the model cannot effectively detect errors using static prototypes when the inference environment or action execution distribution differs from training; and (2) the model may also use the wrong prototypes to detect errors if the ongoing action label is not the same as the predicted one. To address this problem, we propose an Adaptive Multiple Normal Action Representation (AMNAR) framework. AMNAR predicts all valid next actions and reconstructs their corresponding normal action representations, which are compared against the ongoing action to detect errors. Extensive experiments demonstrate that AMNAR achieves state-of-the-art performance, highlighting the effectiveness of AMNAR and the importance of modeling multiple valid next actions in error detection. The code is available at https://github.com/iSEE-Laboratory/AMNAR.
- Abstract(参考訳): プロシージャ活動における誤り検出は、AR補助ロボットシステムにおける一貫性と正しい結果に不可欠である。
既存のメソッドは、時間的順序付けエラーに焦点を当てたり、通常のアクションを表現するために静的プロトタイプに依存したりすることが多い。
しかし、これらのアプローチは通常、複数の異なるアクションが与えられた実行されたアクションのシーケンスに従って有効である一般的なシナリオを見落とします。
これは,(1)推論環境や動作実行分布が異なる場合,静的プロトタイプを用いてエラーを効果的に検出できないこと,(2)進行中の動作ラベルが予測値と一致していない場合,間違ったプロトタイプを用いてエラーを検出できる,という2つの問題に繋がる。
この問題に対処するために,適応多重正規表現(AMNAR)フレームワークを提案する。
AMNARはすべての有効な次のアクションを予測し、対応する正常なアクション表現を再構築する。
広範囲な実験により、AMNARは最先端のパフォーマンスを達成し、AMNARの有効性と、エラー検出において有効な複数の次のアクションをモデル化することの重要性を強調している。
コードはhttps://github.com/iSEE-Laboratory/AMNARで入手できる。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - PREGO: online mistake detection in PRocedural EGOcentric videos [49.72812518471056]
自己中心型ビデオにおける誤り検出のための,最初のオンライン一級分類モデルであるPregoを提案する。
PreGOは、現在のアクションをモデル化するオンラインアクション認識コンポーネントと、次のアクションを予測するシンボリック推論モジュールに基づいている。
手続き的誤り検出のオンラインベンチマークに適応する2つの手続き的自己中心型ビデオデータセットであるAmbly101とEpic-tentについてPreGOを評価した。
論文 参考訳(メタデータ) (2024-04-02T13:27:28Z) - DCdetector: Dual Attention Contrastive Representation Learning for Time
Series Anomaly Detection [26.042898544127503]
時系列異常検出は幅広い用途において重要である。
時系列の通常のサンプル分布から逸脱したサンプルを識別することを目的としている。
マルチスケールな二重注意コントラスト表現学習モデルであるDCdetectorを提案する。
論文 参考訳(メタデータ) (2023-06-17T13:40:15Z) - Abnormal Event Detection via Hypergraph Contrastive Learning [54.80429341415227]
異常事象検出は多くの実アプリケーションにおいて重要な役割を果たす。
本稿では,分散異種情報ネットワークにおける異常事象検出問題について検討する。
AEHCLと呼ばれる新しいハイパーグラフコントラスト学習法が,異常事象のパターンをフルに捉えるために提案されている。
論文 参考訳(メタデータ) (2023-04-02T08:23:20Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Multivariate Time Series Anomaly Detection with Few Positive Samples [12.256288627540536]
この実践的状況のニーズに対処する2つの方法を紹介する。
提案手法は, 自己回帰(AR)モデルを用いた正規動作の代表的な学習に有効である。
文献からのアプローチと比較して,効果的な性能を示す。
論文 参考訳(メタデータ) (2022-07-02T00:58:52Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。