論文の概要: From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models
- arxiv url: http://arxiv.org/abs/2602.01811v1
- Date: Mon, 02 Feb 2026 08:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.0823
- Title: From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models
- Title(参考訳): 正確に行うための知識: VLAモデルのための一般的な自己補正と終了フレームワーク
- Authors: Wentao Zhang, Aolan Sun, Wentao Mo, Xiaoyang Qu, Yuxin Zheng, Jianzong Wang,
- Abstract要約: 本稿では、視覚言語アクション(VLA)モデルのための軽量でトレーニング不要なフレームワークを提案する。
VLA-SCTは自己修正制御ループとして動作し、データ駆動型アクションリファインメントと条件論理を組み合わせて終了する。
本手法は,LIBEROベンチマークのすべてのデータセットに対して一貫した改善を実現する。
- 参考スコア(独自算出の注目度): 42.553888395227766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision-language-action (VLA) models for embodied agents integrate perception, reasoning, and control, they remain constrained by two critical weaknesses: first, during grasping tasks, the action tokens generated by the language model often exhibit subtle spatial deviations from the target object, resulting in grasp failures; second, they lack the ability to reliably recognize task completion, which leads to redundant actions and frequent timeout errors. To address these challenges and enhance robustness, we propose a lightweight, training-free framework, VLA-SCT. This framework operates as a self-correcting control loop, combining data-driven action refinement with conditional logic for termination. Consequently, compared to baseline approaches, our method achieves consistent improvements across all datasets in the LIBERO benchmark, significantly increasing the success rate of fine manipulation tasks and ensuring accurate task completion, thereby promoting the deployment of more reliable VLA agents in complex, unstructured environments.
- Abstract(参考訳): 具体的エージェントのための視覚言語アクション(VLA)モデルは、知覚、推論、制御を統合するが、それらは2つの重大な弱点によって制約される: 1つは、タスクを把握している間、言語モデルによって生成されたアクショントークンは、ターゲットオブジェクトからの微妙な空間的ずれをしばしば示し、失敗を把握し、そして2つ目は、タスク完了を確実に認識する能力が欠如し、冗長なアクションと頻繁なタイムアウトエラーをもたらすことである。
これらの課題に対処し、堅牢性を高めるために、軽量でトレーニング不要なフレームワークであるVLA-SCTを提案する。
このフレームワークは自己修正制御ループとして機能し、データ駆動型アクションリファインメントと条件論理を組み合わせて終了する。
その結果,LIBEROベンチマークの全てのデータセットに対して一貫した改善を実現し,微調整タスクの成功率を大幅に向上し,精度の高いタスク完了を実現し,複雑な非構造環境における信頼性の高いVLAエージェントの展開を促進することができた。
関連論文リスト
- Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback [23.48582504679409]
最先端の政策モデルでさえ不安定な把握行動を示すことが多い。
視覚言語モデル誘導フィードバックによるグルーピング性能の向上を目的とした,プラグイン・アンド・プレイモジュールであるGraspCorrectを紹介する。
論文 参考訳(メタデータ) (2025-03-19T09:25:32Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。