論文の概要: Procedural Mistake Detection via Action Effect Modeling
- arxiv url: http://arxiv.org/abs/2512.03474v1
- Date: Wed, 03 Dec 2025 05:56:17 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:04:22.979848
- Title: Procedural Mistake Detection via Action Effect Modeling
- Title(参考訳): アクションエフェクトモデリングによる手続きミス検出
- Authors: Wenliang Guo, Yujiang Pu, Yu Kong,
- Abstract要約: アクション・エフェクト・モデリング(AEM)は、確率的定式化を通じてアクションの実行とその結果をキャプチャする統合されたフレームワークである。
AEMは、意味的関連性と視覚的品質に基づいて最も情報性の高い効果フレームを選択することにより、アクションの結果を特定する。
その後、視覚的接地とシンボリックシーングラフから補完的手がかりを抽出し、それらを共有潜在空間に整列させ、堅牢な効果認識表現を形成する。
- 参考スコア(独自算出の注目度): 10.358293338390716
- License:
- Abstract: Mistake detection in procedural tasks is essential for building intelligent systems that support learning and task execution. Existing approaches primarily analyze how an action is performed, while overlooking what it produces, i.e., the \textbf{action effect}. Yet many errors manifest not in the execution itself but in the resulting outcome, such as an unintended object state or incorrect spatial arrangement. To address this gap, we propose Action Effect Modeling (AEM), a unified framework that jointly captures action execution and its outcomes through a probabilistic formulation. AEM first identifies the outcome of an action by selecting the most informative effect frame based on semantic relevance and visual quality. It then extracts complementary cues from visual grounding and symbolic scene graphs, aligning them in a shared latent space to form robust effect-aware representations. To detect mistakes, we further design a prompt-based detector that incorporates task-specific prompts and aligns each action segment with its intended execution semantics. Our approach achieves state-of-the-art performance on the EgoPER and CaptainCook4D benchmarks under the challenging one-class classification (OCC) setting. These results demonstrate that modeling both execution and outcome yields more reliable mistake detection, and highlight the potential of effect-aware representations to benefit a broader range of downstream applications.
- Abstract(参考訳): 手続き的タスクにおける誤検出は、学習とタスク実行をサポートするインテリジェントシステムの構築に不可欠である。
既存のアプローチは、主にアクションがどのように実行されるかを分析し、それが生成するものを見渡す、すなわち \textbf{action effect} である。
しかし、多くのエラーは実行そのものではなく、意図しないオブジェクトの状態や間違った空間配置のような結果に現れます。
このギャップに対処するために、確率的定式化を通じてアクション実行とその結果を共同でキャプチャする統合フレームワークであるAEM(Action Effect Modeling)を提案する。
AEMは、まず、意味的関連性と視覚的品質に基づいて最も情報性の高い効果フレームを選択することで、アクションの結果を識別する。
その後、視覚的接地とシンボリックシーングラフから補完的手がかりを抽出し、それらを共有潜在空間に整列させ、堅牢な効果認識表現を形成する。
誤りを検出するために、タスク固有のプロンプトを組み込んだプロンプトベースの検出器を設計し、各アクションセグメントを意図した実行セマンティクスと整合させる。
提案手法は,EgoPERとCaptainCook4Dベンチマークの1クラス分類(OCC)に挑戦して,最先端の性能を実現する。
これらの結果は、実行と結果の両方のモデリングにより、より信頼性の高い誤り検出が得られ、より広範囲の下流アプリケーションに利益をもたらす効果を認識できる表現の可能性を強調している。
関連論文リスト
- PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - Uncertainty-Guided Appearance-Motion Association Network for Out-of-Distribution Action Detection [4.938957922033169]
セマンティックシフトでテストサンプルを検出し、拒否するOOD(Out-of-Distribution)検出ターゲット。
我々は,新しい不確実性誘導外観運動ネットワーク(UAAN)を提案する。
UAANは最先端の手法をかなりの差で打ち負かし、その効果を実証する。
論文 参考訳(メタデータ) (2024-09-16T02:53:49Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training [84.95281245784348]
共起関係の過度な強調は、モデルの過度な問題を引き起こす可能性がある。
本稿では,対象対象物とその共起対象物による相関特性を媒介者とみなすことができることを示す因果推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:13:24Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。