論文の概要: RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction
- arxiv url: http://arxiv.org/abs/2505.12224v2
- Date: Tue, 20 May 2025 05:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.422584
- Title: RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction
- Title(参考訳): RoboFAC: ロボットの故障解析と訂正のための総合的なフレームワーク
- Authors: Weifeng Lu, Minghao Ye, Zewei Ye, Ruihan Tao, Shuo Yang, Bo Zhao,
- Abstract要約: VLA(Vision-Language-Action)モデルは、最近、自然言語命令と画像情報を逐次制御アクションに変換することによって、ロボット操作を進化させた。
これらのモデルは、専門家によるデモンストレーションの成功を主に訓練し、障害回復の限られた能力を示すため、オープンワールドシナリオではパフォーマンスが劣ることが多い。
この問題に対処するためのロボット故障解析・補正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.362267380915038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently advanced robotic manipulation by translating natural-language instructions and image information into sequential control actions. However, these models often underperform in open-world scenarios, as they are predominantly trained on successful expert demonstrations and exhibit a limited capacity for failure recovery. In this work, we present a Robotic Failure Analysis and Correction (RoboFAC) framework to address this issue. Firstly, we construct RoboFAC dataset comprising 9,440 erroneous manipulation trajectories and 78,623 QA pairs across 16 diverse tasks and 53 scenes in both simulation and real-world environments. Leveraging our dataset, we develop RoboFAC model, which is capable of Task Understanding, Failure Analysis and Failure Correction. Experimental results demonstrate that the RoboFAC model outperforms GPT-4o by 34.1% on our evaluation benchmark. Furthermore, we integrate the RoboFAC model into a real-world VLA control pipeline as an external supervision providing correction instructions, yielding a 29.1% relative improvement on average on four real-world tasks. The results show that our RoboFAC framework effectively handles robotic failures and assists the VLA model in recovering from failures.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、最近、自然言語命令と画像情報を逐次制御アクションに変換することによって、ロボット操作を進化させた。
しかしながら、これらのモデルは、専門家によるデモンストレーションの成功に主に訓練され、障害回復の限られた能力を示すため、オープンワールドシナリオではパフォーマンスが劣ることが多い。
本稿では,ロボット故障解析・補正(RoboFAC)フレームワークを提案する。
まず, シミュレーションと実環境の両方において, 9,440個の誤った操作軌跡と, 16のタスクにまたがる78,623個のQAペアと53のシーンからなるRoboFACデータセットを構築した。
データセットを活用することで、タスク理解、障害分析、障害訂正が可能なRoboFACモデルを開発する。
実験の結果,RoboFACモデルは評価ベンチマークでGPT-4oを34.1%上回った。
さらに,RoboFACモデルを実世界のVLA制御パイプラインに統合し,4つの実世界のタスクにおいて平均29.1%の相対的な改善が得られた。
その結果,ロボット故障を効果的に処理し,故障から回復するVLAモデルを支援するRoboFACフレームワークが得られた。
関連論文リスト
- From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで54.1%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。