論文の概要: How to Correctly Make Mistakes: A Framework for Constructing and Benchmarking Mistake Aware Egocentric Procedural Videos
- arxiv url: http://arxiv.org/abs/2604.15134v1
- Date: Thu, 16 Apr 2026 15:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.97705
- Title: How to Correctly Make Mistakes: A Framework for Constructing and Benchmarking Mistake Aware Egocentric Procedural Videos
- Title(参考訳): 間違いを正す方法:エゴセントリックな手続き的ビデオに注意してミスを検知し、ベンチマークするフレームワーク
- Authors: Olga Loginova, Frank Keller,
- Abstract要約: 本稿では,自己中心型手続き型ビデオの構築とベンチマークを行うフレームワークであるPIE-Vについて述べる。
ベンチマークには、ステップレベルとプロシージャレベルの品質をカバーする9つの指標を備えた統合分類法と人間のルーリックを導入する。
- 参考スコア(独自算出の注目度): 18.88275830423089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable procedural monitoring in video requires exposure to naturally occurring human errors and the recoveries that follow. In egocentric recordings, mistakes are often partially occluded by hands and revealed through subtle object state changes, while existing procedural datasets provide limited and inconsistent mistake and correction traces. We present PIE-V (Psychologically Inspired Error injection for Videos), a framework for constructing and benchmarking mistake-aware egocentric procedural videos by augmenting clean keystep procedures with controlled, human-plausible deviations. PIE-V combines a psychology-informed error planner conditioned on procedure phase and semantic step load, a correction planner that models recovery behavior, an LLM writer that performs cascade-consistent rewrites, and an LLM judge that validates procedural coherence and repairs failures. For video segment edits, PIE-V synthesizes replacement clips with text-guided video generation and stitches them into the episode to preserve visual plausibility. Applied to 17 tasks and 50 Ego-Exo4D scenarios, PIE-V injects 102 mistakes and generates 27 recovery corrections. For benchmarking, we introduce a unified taxonomy and a human rubric with nine metrics that cover step-level and procedure-level quality, including plausibility, procedure logic with annotator confidence, state change coherence, and grounding between text and video. Using this protocol, we audit several existing resources and compare PIE-V against a freeform LLM generation baseline under the same criteria. Together, the framework and rubric support post-completion verification for egocentric procedural mistake detection and correction.
- Abstract(参考訳): ビデオにおける信頼性の高い手続き的監視には、自然に発生する人間のエラーと、それに続く回復に曝露する必要がある。
エゴセントリックな記録では、ミスは手によって部分的に隠され、微妙な物体の状態変化によって明らかにされるが、既存の手続き的データセットは限定的で矛盾のない誤りと修正の痕跡を提供する。
PIE-V (Psychologically Inspired Error Injection for Videos) は,人間の目視で操作可能な鮮明なキーステップを付加することにより,誤りを意識したエゴセントリックなプロシージャビデオの構築とベンチマークを行うためのフレームワークである。
PIE-Vは、プロシージャフェーズとセマンティックステップロードに条件付けされた心理学的インフォームドエラープランナー、回復動作をモデル化する修正プランナー、カスケード一貫性のある書き直しを行うLLMライター、手続き的コヒーレンスを検証し失敗を修復するLLMジャッジを組み合わせる。
ビデオセグメント編集のために、PIE-Vはテキスト誘導ビデオ生成で置換クリップを合成し、それらをエピソードに縫い付け、視覚的可視性を維持する。
17のタスクと50のEgo-Exo4Dシナリオに適用されたPIE-Vは102のミスを注入し、27のリカバリ修正を生成する。
ベンチマークでは,ステップレベルとプロシージャレベルの9つの指標を備えた統一分類法と人間のルーリックを導入し,可視性,アノテータの信頼性を備えた手順論理,状態変化の一貫性,テキストとビデオ間の接地などについて検討した。
このプロトコルを用いて、既存のリソースを監査し、PIE-V とフリーフォーム LLM 生成ベースラインを同じ基準で比較する。
フレームワークとルーブリックは共に、自己中心型手続き的誤り検出と修正のための補完後検証をサポートする。
関連論文リスト
- ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimodal Large Language Models [23.37951284612929]
動的知覚、科学的推論、具体化された意思決定ドメインにまたがる30K以上のインスタンスのデータセットを構築します。
ViRectifyでは、MLLMに対してステップワイドな誤り識別を行い、重要なビデオ証拠を根拠とした合理性を生成する。
また,視覚的エビデンスに基づく補正手法として,段階的誤り軌道と報酬モデルを組み合わせた軌道証拠駆動補正手法を提案する。
論文 参考訳(メタデータ) (2025-12-01T09:05:02Z) - Revisiting Reconstruction-based AI-generated Image Detection: A Geometric Perspective [50.83711509908479]
幾何学的観点からの再構成誤差に対するヤコビアンスペクトル下界の導入について述べる。
再構成多様体上の実画像は非自明な誤差下界を示し、多様体上の生成された画像はゼロに近い誤差を持つことを示す。
本稿では,構造化編集操作を活用することで動的再構成誤差を計算できるReGapを提案する。
論文 参考訳(メタデータ) (2025-10-29T03:45:03Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - PREGO: online mistake detection in PRocedural EGOcentric videos [49.72812518471056]
自己中心型ビデオにおける誤り検出のための,最初のオンライン一級分類モデルであるPregoを提案する。
PreGOは、現在のアクションをモデル化するオンラインアクション認識コンポーネントと、次のアクションを予測するシンボリック推論モジュールに基づいている。
手続き的誤り検出のオンラインベンチマークに適応する2つの手続き的自己中心型ビデオデータセットであるAmbly101とEpic-tentについてPreGOを評価した。
論文 参考訳(メタデータ) (2024-04-02T13:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。