論文の概要: Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning
- arxiv url: http://arxiv.org/abs/2602.12405v1
- Date: Thu, 12 Feb 2026 20:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.753035
- Title: Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning
- Title(参考訳): ロボット故障検出・推論のための自己修正型視覚言語モデル
- Authors: Carl Qi, Xiaojie Wang, Silong Yong, Stephen Sheng, Huitan Mao, Sriram Srinivasan, Manikantan Nambi, Amy Zhang, Yesh Dattatreya,
- Abstract要約: 本稿では,ロボット故障検出と推論のための適応ラウンドベースマルチタスクmOdelについて紹介する。
マルチタスク・セルフリファインメント・プロセスとして検出と推論を定式化する。
ARMORは,従来の手法を最大30%の故障検出率で改善し,最先端の性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 16.274791437311602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning about failures is crucial for building reliable and trustworthy robotic systems. Prior approaches either treat failure reasoning as a closed-set classification problem or assume access to ample human annotations. Failures in the real world are typically subtle, combinatorial, and difficult to enumerate, whereas rich reasoning labels are expensive to acquire. We address this problem by introducing ARMOR: Adaptive Round-based Multi-task mOdel for Robotic failure detection and reasoning. We formulate detection and reasoning as a multi-task self-refinement process, where the model iteratively predicts detection outcomes and natural language reasoning conditioned on past outputs. During training, ARMOR learns from heterogeneous supervision - large-scale sparse binary labels and small-scale rich reasoning annotations - optimized via a combination of offline and online imitation learning. At inference time, ARMOR generates multiple refinement trajectories and selects the most confident prediction via a self-certainty metric. Experiments across diverse environments show that ARMOR achieves state-of-the-art performance by improving over the previous approaches by up to 30% on failure detection rate and up to 100% in reasoning measured through LLM fuzzy match score, demonstrating robustness to heterogeneous supervision and open-ended reasoning beyond predefined failure modes. We provide dditional visualizations on our website: https://sites.google.com/utexas.edu/armor
- Abstract(参考訳): 信頼性と信頼性を備えたロボットシステムを構築するためには、障害に関する推論が不可欠だ。
それまでのアプローチでは、失敗推論をクローズドセットの分類問題として扱うか、あるいは十分な人間のアノテーションへのアクセスを前提としていた。
現実の世界における失敗は、典型的には微妙で、組合せ的であり、列挙するのが困難である。
本稿では,ロボット故障検出と推論のための適応ラウンドベースマルチタスクmOdelを導入することで,この問題に対処する。
モデルが過去の出力に条件付けされた検出結果と自然言語推論を反復的に予測するマルチタスク自己精製プロセスとして検出と推論を定式化する。
トレーニング中、ARMORは、オフラインとオンラインの模倣学習の組み合わせによって最適化された異種監視(大規模なスパースバイナリラベルと小規模なリッチ推論アノテーション)から学ぶ。
推定時、ARMORは複数の洗練された軌道を生成し、自己確実性測定によって最も確実な予測を選択する。
LLMファジィマッチスコアによる推論の最大30%、不均一な監視に対する堅牢性、予め定義された障害モードを超えてオープンな推論を実証することにより、ARMORが従来のアプローチよりも最大30%向上し、最先端のパフォーマンスを達成することを示す。
当社のWebサイトには,次のような詳細な可視化情報を提供しています。
関連論文リスト
- Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - Obstruction reasoning for robotic grasping [18.39507400925748]
障害推論が可能な学習型視覚言語モデルであるUNOGraspを提案する。
対象対象物から生じる障害経路に基づいて, 新たな多段階推論法を考案する。
我々は,MetaGraspNetV2に基づいて,トレーニングとベンチマークの両方のための大規模データセットであるUNOBenchを構築した。
論文 参考訳(メタデータ) (2025-11-28T13:53:12Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - TI-PREGO: Chain of Thought and In-Context Learning for Online Mistake Detection in PRocedural EGOcentric Videos [48.126793563151715]
オンラインのオープンセットの手続きミスを効果的に検出する技術はない。
1つのブランチは、入力されたエゴセントリックビデオからステップ認識を連続的に行う。
もう1つは、認識モジュールの出力に基づいて将来のステップを予測します。
論文 参考訳(メタデータ) (2024-11-04T20:03:06Z) - State Machine of Thoughts: Leveraging Past Reasoning Trajectories for
Enhancing Problem Solving [6.198707341858042]
我々は、状態マシンを使用して、以前の推論軌道から得られた経験を記録する。
状態マシン内では、状態は分解されたサブプロブレムを表し、状態遷移はサブプロブレム間の依存関係を反映する。
提案するState Machine of Thoughts (SMoT)は,最も最適なサブソリューションを選択し,誤ったサブソリューションを避ける。
論文 参考訳(メタデータ) (2023-12-29T03:00:04Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。