論文の概要: CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding
- arxiv url: http://arxiv.org/abs/2601.02295v1
- Date: Mon, 05 Jan 2026 17:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.639253
- Title: CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding
- Title(参考訳): CycleVLA: サブタスクバックトラックと最小ベイズリスク復号によるプロアクティブな自己補正型ビジョンランゲージ・アクションモデル
- Authors: Chenyang Ma, Guangyu Yang, Kai Lu, Shitong Xu, Bill Byrne, Niki Trigoni, Andrew Markham,
- Abstract要約: サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
- 参考スコア(独自算出の注目度): 60.06899554269808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current work on robot failure detection and correction typically operate in a post hoc manner, analyzing errors and applying corrections only after failures occur. This work introduces CycleVLA, a system that equips Vision-Language-Action models (VLAs) with proactive self-correction, the capability to anticipate incipient failures and recover before they fully manifest during execution. CycleVLA achieves this by integrating a progress-aware VLA that flags critical subtask transition points where failures most frequently occur, a VLM-based failure predictor and planner that triggers subtask backtracking upon predicted failure, and a test-time scaling strategy based on Minimum Bayes Risk (MBR) decoding to improve retry success after backtracking. Extensive experiments show that CycleVLA improves performance for both well-trained and under-trained VLAs, and that MBR serves as an effective zero-shot test-time scaling strategy for VLAs. Project Page: https://dannymcy.github.io/cyclevla/
- Abstract(参考訳): ロボット故障の検出と修正に関する現在の研究は、通常、ポストホックな方法で動作し、エラーを分析し、故障が発生した後にのみ修正を適用する。
この研究は、VLA(Vision-Language-Action Model)とプロアクティブ自己補正(Proactive self-correction)を併用するシステムであるCycleVLAを紹介した。
CycleVLAは、障害が頻繁に発生する重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLA、予測された障害に対するサブタスクのバックトラックをトリガーするVLMベースの障害予測器とプランナー、バックトラック後のリトライ成功を改善するために最小ベイズリスク(MBR)デコードに基づくテストタイムスケーリング戦略を統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善し、MBRは、VLAの効率的なゼロショットテストタイムスケーリング戦略として機能することが示された。
Project Page: https://dannymcy.github.io/cyclevla/
関連論文リスト
- See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures [14.313346858887286]
自律走行のためのVLA(Vision-Language-Action)モデルは、強化学習(Reinforcement Learning、RL)最適化時にしばしばパフォーマンス高原に到達する。
この停滞は、以前のスーパービジョン・ファインチューニング(SFT)によって制約された探査能力から生じる。
構造化された診断フィードバックでRLを増強するフレームワークであるELF-VLA(Explicit Learning from Failures)を提案する。
論文 参考訳(メタデータ) (2026-03-01T11:41:22Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - A Unified Framework for Real-Time Failure Handling in Robotics Using Vision-Language Models, Reactive Planner and Behavior Trees [1.3481665321936716]
本稿では,リアクティブプランナであるVLM(Vision-Language Models)とBT(Behavior Trees)を組み合わせて,リアルタイムの障害処理を実現する,統合された障害復旧フレームワークを提案する。
当社のアプローチには、実行前の潜在的な障害をチェックする事前実行検証と、実行中の障害を検出し修正するリアクティブ障害処理が含まれている。
我々は、ペグ挿入、オブジェクトソート、引き手の配置といったタスクにおいて、ABB YuMiロボットを用いた実世界の実験を通して、我々のフレームワークを評価する。
論文 参考訳(メタデータ) (2025-03-19T13:40:56Z) - A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation [30.207690822989292]
自己修正(SC-)VLAフレームワークは、アクションを直接予測する高速システムと、失敗したアクションを反映する遅いシステムを統合する。
高速システムでは,パラメータ効率のよい微調整を取り入れて,モデルにポーズ予測機能を持たせる。
動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。