論文の概要: Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols
- arxiv url: http://arxiv.org/abs/2512.02787v1
- Date: Tue, 02 Dec 2025 14:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.90622
- Title: Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols
- Title(参考訳): 視覚記号によるマニピュレーション障害の診断・修正・学習
- Authors: Xianchao Zeng, Xinyu Zhou, Youcheng Li, Jiayou Shi, Tianle Li, Liangming Chen, Lei Ren, Yong-Lu Li,
- Abstract要約: 58,126 の Visual Question Answering (VQA) ペアの大規模なコレクションである ViFailback データセットをリリースしています。
データセットに基づいて、故障診断と修正能力を評価するために設計されたベンチマーク11のVQAタスクであるViFailbackBenchを確立する。
我々はViFailback-8B VLMを構築し、ViFailback-Benchの全体的な性能改善を実現した。
- 参考スコア(独自算出の注目度): 20.9173397267616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently achieved remarkable progress in robotic manipulation, yet they remain limited in failure diagnosis and learning from failures. Additionally, existing failure datasets are mostly generated programmatically in simulation, which limits their generalization to the real world. In light of these, we introduce ViFailback, a framework designed to diagnose robotic manipulation failures and provide both textual and visual correction guidance. Our framework utilizes explicit visual symbols to enhance annotation efficiency. We further release the ViFailback dataset, a large-scale collection of 58,126 Visual Question Answering (VQA) pairs along with their corresponding 5,202 real-world manipulation trajectories. Based on the dataset, we establish ViFailback-Bench, a benchmark of 11 fine-grained VQA tasks designed to assess the failure diagnosis and correction abilities of Vision-Language Models (VLMs), featuring ViFailback-Bench Lite for closed-ended and ViFailback-Bench Hard for open-ended evaluation. To demonstrate the effectiveness of our framework, we built the ViFailback-8B VLM, which not only achieves significant overall performance improvement on ViFailback-Bench but also generates visual symbols for corrective action guidance. Finally, by integrating ViFailback-8B with a VLA model, we conduct real-world robotic experiments demonstrating its ability to assist the VLA model in recovering from failures. Project Website: https://x1nyuzhou.github.io/vifailback.github.io/
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、ロボット操作において顕著な進歩を遂げているが、失敗の診断や失敗からの学習には限界がある。
さらに、既存の障害データセットは、主にシミュレーションでプログラム的に生成され、その一般化を現実世界に限定する。
ViFailbackは、ロボット操作障害の診断と、テキストと視覚の両方の補正を行うためのフレームワークである。
我々のフレームワークは、アノテーションの効率を高めるために明示的な視覚的シンボルを利用する。
さらに、VQA(Visual Question Answering)ペア58,126組の大規模なコレクションであるViFailbackデータセットと、対応する5,202個の実世界の操作トラジェクトリもリリースしています。
このデータセットに基づいて、ViFailback-Bench Liteをクローズドエンドに、ViFailback-Bench Hardをオープンエンドに、VLM(Vision-Language Models)の故障診断と修正能力を評価するために設計された11のきめ細かいVQAタスクのベンチマークであるViFailback-Benchを作成した。
ViFailback-8B VLMは,ViFailback-Benchの全体的な性能向上を実現するだけでなく,視覚的シンボルを生成できる。
最後に,VLAモデルとViFailback-8Bを統合することで,VLAモデルが故障から回復する際の支援能力を示す実世界のロボット実験を行う。
プロジェクトサイト:https://x1nyuzhou.github.io/vifailback.github.io/
関連論文リスト
- Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - MVTamperBench: Evaluating Robustness of Vision-Language Models [5.062181035021214]
textbfMVTamperBenchは、MLLMの強靭性を5つの一般的なタンパリング手法に対して体系的に評価するベンチマークである。
MVTamperBenchは3.4Kのオリジナルビデオで構成され、19の異なるビデオ操作タスクをカバーする17K以上のタンパー付きクリップに拡張されている。
論文 参考訳(メタデータ) (2024-12-27T18:47:05Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。