論文の概要: Self-Correcting VLA: Online Action Refinement via Sparse World Imagination
- arxiv url: http://arxiv.org/abs/2602.21633v1
- Date: Wed, 25 Feb 2026 06:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.732902
- Title: Self-Correcting VLA: Online Action Refinement via Sparse World Imagination
- Title(参考訳): 自己調整型VLA: スパースワールドイマジネーションによるオンラインアクションリファインメント
- Authors: Chenyv Liu, Wentao Tan, Lei Zhu, Fengling Li, Jingjing Li, Guoli Yang, Heng Tao Shen,
- Abstract要約: 本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
- 参考スコア(独自算出の注目度): 55.982504915794514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard vision-language-action (VLA) models rely on fitting statistical data priors, limiting their robust understanding of underlying physical dynamics. Reinforcement learning enhances physical grounding through exploration yet typically relies on external reward signals that remain isolated from the agent's internal states. World action models have emerged as a promising paradigm that integrates imagination and control to enable predictive planning. However, they rely on implicit context modeling, lacking explicit mechanisms for self-improvement. To solve these problems, we propose Self-Correcting VLA (SC-VLA), which achieve self-improvement by intrinsically guiding action refinement through sparse imagination. We first design sparse world imagination by integrating auxiliary predictive heads to forecast current task progress and future trajectory trends, thereby constraining the policy to encode short-term physical evolution. Then we introduce the online action refinement module to reshape progress-dependent dense rewards, adjusting trajectory orientation based on the predicted sparse future states. Evaluations on challenging robot manipulation tasks from simulation benchmarks and real-world settings demonstrate that SC-VLA achieve state-of-the-art performance, yielding the highest task throughput with 16% fewer steps and a 9% higher success rate than the best-performing baselines, alongside a 14% gain in real-world experiments. Code is available at https://github.com/Kisaragi0/SC-VLA.
- Abstract(参考訳): VLA(Standard Vision-Language-action)モデルは、基礎となる物理力学の堅牢な理解を制限するため、統計データの適合に頼っている。
強化学習は、探索を通じて物理的基盤を強化するが、典型的にはエージェントの内部状態から孤立した外部報酬信号に依存している。
世界アクションモデルは、予測計画を可能にするために想像と制御を統合する有望なパラダイムとして登場した。
しかし、それらは暗黙の文脈モデリングに依存しており、自己改善のための明示的なメカニズムが欠如している。
これらの問題を解決するために,本質的な行動改善の導出による自己改善を実現する自己補正型VLA(SC-VLA)を提案する。
我々はまず,現在進行中の課題の進行と今後の軌跡の傾向を予測するために,補助的な予測ヘッドを統合し,短期的な物理的進化をエンコードする政策を制約することによって,スパース世界の想像力を第一に設計する。
次に,オンライン行動改善モジュールを導入し,進行依存の高密度報酬を再現し,予測された疎い将来状態に基づいて軌道方向を調整する。
シミュレーションベンチマークと実世界の設定によるロボット操作タスクの挑戦的評価は、SC-VLAが最先端のパフォーマンスを達成することを実証している。
コードはhttps://github.com/Kisaragi0/SC-VLAで公開されている。
関連論文リスト
- TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics [46.912038830356714]
本稿では,ロボット作業の進捗を推定する時間的価値関数TOPRewardを紹介する。
130以上の異なる実世界のタスクに対するゼロショット評価では、TOPRewardはQwen3-VL上で0.947の平均値順序相関(VOC)を達成する。
我々は,TOPRewardがダウンストリームアプリケーションのための汎用ツールであることを示す。
論文 参考訳(メタデータ) (2026-02-22T19:25:48Z) - SimVLA: A Simple VLA Baseline for Robotic Manipulation [46.38114519538192]
VLA(Vision-Language-Action)モデルは、汎用ロボット操作のための有望なパラダイムとして登場した。
我々は,VLA研究の透明な基準点を確立するために,SimVLAを紹介した。
論文 参考訳(メタデータ) (2026-02-20T14:04:27Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。