Fugu-MT 論文翻訳(概要): ReconVLA: An Uncertainty-Guided and Failure-Aware Vision-Language-Action Framework for Robotic Control

論文の概要: ReconVLA: An Uncertainty-Guided and Failure-Aware Vision-Language-Action Framework for Robotic Control

arxiv url: http://arxiv.org/abs/2604.16677v1
Date: Fri, 17 Apr 2026 20:20:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 14:04:47.801988
Title: ReconVLA: An Uncertainty-Guided and Failure-Aware Vision-Language-Action Framework for Robotic Control
Title（参考訳）: ReconVLA: ロボット制御のための不確かさと失敗を意識したビジョンランゲージ・アクション・フレームワーク
Authors: Lingling Chen, Zongyao Lyu, William J. Beksi,
Abstract要約: 視覚-言語-アクション(VLA)モデルは、視覚観察と自然言語命令を連続的なアクションシーケンスにマッピングできる汎用ロボットコントローラとして登場した。 ReconVLAは、不確実性誘導および故障認識制御信号を生成する信頼性の高いコンフォメーションモデルである。以上の結果から, 共形行動予測は失敗予測を継続的に改善し, 破滅的エラーを低減し, 基礎となるVLAを調整・修正することなく信頼度を調整できることが示唆された。
参考スコア（独自算出の注目度）: 7.018221049093963
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language-action (VLA) models have emerged as generalist robotic controllers capable of mapping visual observations and natural language instructions to continuous action sequences. However, VLAs provide no calibrated measure of confidence in their action predictions, thus limiting their reliability in real-world settings where uncertainty and failures must be anticipated. To address this problem we introduce ReconVLA, a reliable conformal model that produces uncertainty-guided and failure-aware control signals. Concretely, our approach applies conformal prediction directly to the action token outputs of pretrained VLA policies, yielding calibrated uncertainty estimates that correlate with execution quality and task success. Furthermore, we extend conformal prediction to the robot state space to detect outliers or unsafe states before failures occur, providing a simple yet effective failure detection mechanism that complements the action-level uncertainty. We evaluate ReconVLA in both simulation and real robot experiments across diverse manipulation tasks. Our results show that conformalized action predictions consistently improve failure anticipation, reduce catastrophic errors, and provide a calibrated measure of confidence without retraining or modifying the underlying VLA.
Abstract（参考訳）: 視覚-言語-アクション(VLA)モデルは、視覚観察と自然言語命令を連続的なアクションシーケンスにマッピングできる汎用ロボットコントローラとして登場した。しかしながら、VLAはアクション予測に対する信頼性の調整を行なわないため、不確実性と障害が予想される現実の環境での信頼性が制限される。この問題に対処するために、不確実性誘導および故障認識制御信号を生成する信頼性の高いコンフォメーションモデルReconVLAを導入する。具体的には、事前訓練されたVLAポリシーのアクショントークン出力に対して、コンフォメーション予測を直接適用し、実行品質とタスク成功に相関するキャリブレーションされた不確実性を推定する。さらに,ロボットの状態空間へのコンフォメーション予測を拡張して,障害発生前の異常や安全でない状態を検知し,アクションレベルの不確実性を補完する簡易かつ効果的な故障検出機構を提供する。我々はReconVLAをシミュレーションと実際のロボット実験の両方において多種多様な操作タスクで評価する。以上の結果から, 共形行動予測は失敗予測を継続的に改善し, 破滅的エラーを低減し, 基礎となるVLAを調整・修正することなく信頼度を調整できることが示唆された。

関連論文リスト

TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models [59.13964209628383]
VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。本稿では,VLA政策における乱れや外見に起因したバイアスを明示的に軽減する単純な推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
論文参考訳（メタデータ） (2026-03-25T17:56:32Z)
Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model [10.781664119473966]
本稿では,ロールアウトの成功と失敗を予測するための統一的不確実性定量化手法を提案する。本手法は, 故障予測精度を大幅に向上し, 故障検出のための信頼性の高い信号を得る。
論文参考訳（メタデータ） (2026-03-18T22:52:03Z)
See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。 SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文参考訳（メタデータ） (2026-03-10T07:22:51Z)
Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文参考訳（メタデータ） (2026-01-23T11:31:07Z)
CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。 CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文参考訳（メタデータ） (2026-01-05T17:31:01Z)
Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。 RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文参考訳（メタデータ） (2025-12-01T17:57:27Z)
Confidence Calibration in Vision-Language-Action Models [2.230383995796716]
信頼できるロボットの振る舞いは、高いレベルのタスク成功と、それが成功する可能性の確実な定量化を必要とする。本稿では,視覚言語行動(VLA)基礎モデルにおける信頼度校正に関する最初の体系的研究について述べる。
論文参考訳（メタデータ） (2025-07-23T10:26:10Z)
Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies [19.27526590452503]
FAIL-Detectは、模倣学習に基づくロボット操作における障害検出のための2段階のアプローチである。まず、政策失敗と相関し、不確実性を捉えるスカラー信号にポリシー入力と出力を蒸留する。我々の実験は、新しいフローベース密度推定器を使用する場合、学習信号がほぼ一貫した効果を示す。
論文参考訳（メタデータ） (2025-03-11T15:47:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。