論文の概要: TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions
- arxiv url: http://arxiv.org/abs/2603.09782v1
- Date: Tue, 10 Mar 2026 15:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.166686
- Title: TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions
- Title(参考訳): TIMID:ロボットの動画における時間依存ミス検出
- Authors: Nerea Gallego, Fernando Salanova, Claudio Mannarano, Cristian Mahulea, Eduardo Montijano,
- Abstract要約: VADにインスパイアされた新しいアーキテクチャであるTIMIDは、ハイレベルなタスクを実行する際に、ロボットの時間依存ミスを検出することができる。
我々のアーキテクチャは、映像を入力してタスクと潜在的な誤りを通知し、その誤りが存在するかどうかの動画にフレームレベルの予測を返す。
- 参考スコア(独自算出の注目度): 39.788348066726826
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As robotic systems execute increasingly difficult task sequences, so does the number of ways in which they can fail. Video Anomaly Detection (VAD) frameworks typically focus on singular, low-level kinematic or action failures, struggling to identify more complex temporal or spatial task violations, because they do not necessarily manifest as low-level execution errors. To address this problem, the main contribution of this paper is a new VAD-inspired architecture, TIMID, which is able to detect robot time-dependent mistakes when executing high-level tasks. Our architecture receives as inputs a video and prompts of the task and the potential mistake, and returns a frame-level prediction in the video of whether the mistake is present or not. By adopting a VAD formulation, the model can be trained with weak supervision, requiring only a single label per video. Additionally, to alleviate the problem of data scarcity of incorrect executions, we introduce a multi-robot simulation dataset with controlled temporal errors and real executions for zero-shot sim-to-real evaluation. Our experiments demonstrate that out-of-the-box VLMs lack the explicit temporal reasoning required for this task, whereas our framework successfully detects different types of temporal errors. Project: https://ropertunizar.github.io/TIMID/
- Abstract(参考訳): ロボットシステムがますます困難なタスクシーケンスを実行するにつれて、それらが失敗する可能性のある方法の数も増えていく。
ビデオ異常検出(VAD)フレームワークは典型的には、低レベルの実行エラーとして必ずしも現れないため、より複雑な時間的または空間的なタスク違反を特定するのに苦労する、特異、低レベルの運動障害、またはアクション障害に焦点を当てる。
この問題に対処するため,本論文の主な貢献は,ハイレベルタスクの実行時にロボットの時間依存ミスを検出することのできる,新しいVAD型アーキテクチャであるTIMIDである。
我々のアーキテクチャは、映像を入力してタスクと潜在的な誤りを通知し、その誤りが存在するかどうかの動画にフレームレベルの予測を返す。
VADの定式化を採用することで、モデルは弱い監督でトレーニングすることができ、ビデオ毎に1つのラベルしか必要としない。
さらに、不正な実行のデータの不足を軽減するため、時間的誤差を制御したマルチロボットシミュレーションデータセットを導入し、ゼロショット・シム・トゥ・リアルな評価を行う。
実験の結果,VLMにはこのタスクに必要な時間的推論が欠如していることが確認できたが,フレームワークは時間的エラーの異なるタイプを検出できた。
プロジェクト: https://ropertunizar.github.io/TIMID/
関連論文リスト
- Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。
我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。
我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文 参考訳(メタデータ) (2025-05-01T17:41:49Z) - A Unified Framework for Real-Time Failure Handling in Robotics Using Vision-Language Models, Reactive Planner and Behavior Trees [1.3481665321936716]
本稿では,リアクティブプランナであるVLM(Vision-Language Models)とBT(Behavior Trees)を組み合わせて,リアルタイムの障害処理を実現する,統合された障害復旧フレームワークを提案する。
当社のアプローチには、実行前の潜在的な障害をチェックする事前実行検証と、実行中の障害を検出し修正するリアクティブ障害処理が含まれている。
我々は、ペグ挿入、オブジェクトソート、引き手の配置といったタスクにおいて、ABB YuMiロボットを用いた実世界の実験を通して、我々のフレームワークを評価する。
論文 参考訳(メタデータ) (2025-03-19T13:40:56Z) - DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [10.322491116030825]
DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文 参考訳(メタデータ) (2023-07-01T12:51:02Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。