論文の概要: LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models
- arxiv url: http://arxiv.org/abs/2604.28192v1
- Date: Thu, 30 Apr 2026 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.252346
- Title: LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models
- Title(参考訳): LaST-R1:VLAモデルに対する適応的物理遅延推論による強化作用
- Authors: Hao Chen, Jiaming Liu, Zhonghao Yan, Nuowei Han, Renrui Zhang, Chenyang Gu, Jialin Gao, Ziyu Guo, Siyuan Qian, Yinxi Wang, Peng Jia, Chi-Wing Fu, Shanghang Zhang, Pheng-Ann Heng,
- Abstract要約: textbfLaST-R1は,動作実行前に物理力学を推論する潜在チェーン・オブ・ソート(CoT)を統合した統合VLAフレームワークである。
LAPOは物理世界モデリングの表現を改善し、対話環境における堅牢性を高める。
LaST-R1は、LIBEROベンチマークで99.8%の平均的な成功率を達成した。
- 参考スコア(独自算出の注目度): 112.82269746694004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have increasingly incorporated reasoning mechanisms for complex robotic manipulation. However, existing approaches share a critical limitation: whether employing explicit linguistic reasoning that suffers from latency and discretization, or utilizing more expressive continuous latent reasoning, they are predominantly confined to static imitation learning that limits adaptability and generalization. While online reinforcement learning (RL) has been introduced to VLAs to enable trial-and-error exploration, current methods exclusively optimize the vanilla action space, bypassing the underlying physical reasoning process. In this paper, we present \textbf{LaST-R1}, a unified VLA framework that integrates latent Chain-of-Thought (CoT) reasoning over physical dynamics prior to action execution, along with a tailored RL post-training paradigm. Specifically, we propose \textbf{Latent-to-Action Policy Optimization (LAPO)}, a novel RL algorithm that jointly optimizes the latent reasoning process and the action generation. By bridging reasoning and control, LAPO improves the representation of physical world modeling and enhances robustness in interactive environments. Furthermore, an \textbf{adaptive latent CoT mechanism} is introduced to allow the policy to dynamically adjust its reasoning horizon based on environment complexity. Extensive experiments show that LaST-R1 achieves a near-perfect 99.8\% average success rate on the LIBERO benchmark with only one-shot supervised warm-up, significantly improving convergence speed and performance over prior state-of-the-art methods. In real-world deployments, LAPO post-training yields up to a 44\% improvement over the initial warm-up policy across four complex tasks, including both single-arm and dual-arm settings. Finally, LaST-R1 demonstrates strong generalization across simulated and real-world environments.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルには、複雑なロボット操作のための推論機構が組み込まれている。
しかし、既存のアプローチは、遅延と離散化に苦しむ明示的な言語推論を採用するか、あるいはより表現力のある連続的な潜在推論を利用するかという、重要な制限を共有している。
オンライン強化学習(RL)は、試行錯誤探索を可能にするためにVLAに導入されているが、現在の手法はバニラアクション空間を最適化し、基礎となる物理的推論プロセスをバイパスしている。
本稿では,動作実行に先立って物理力学を推論する潜在チェーン・オブ・ソート(CoT)を統合した統合VLAフレームワークであるtextbf{LaST-R1}と,RLポストトレーニングパラダイムを提案する。
具体的には、潜在推論プロセスとアクション生成を協調的に最適化する新しいRLアルゴリズムである、LAPO(textbf{Latent-to-Action Policy Optimization)を提案する。
推論と制御をブリッジすることで、LAPOは物理世界モデリングの表現を改善し、対話環境における堅牢性を高める。
さらに、環境複雑性に基づいて推論水平線を動的に調整できるように、textbf{adaptive latent CoT mechanism}を導入する。
大規模な実験により、LaST-R1はLIBEROベンチマークの平均成功率は99.8パーセント近くで、1ショットの監視されたウォームアップで達成され、従来の最先端手法よりもコンバージェンス速度と性能が大幅に向上した。
現実のデプロイメントでは、LAPOのポストトレーニングは、シングルアームとデュアルアームの両方の設定を含む4つの複雑なタスクで、最初のウォームアップポリシーよりも最大44%改善されている。
最後に、LaST-R1はシミュレーション環境と実世界の環境をまたいだ強力な一般化を示す。
関連論文リスト
- OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL [1.880672844596704]
VLA(Visual-Language-Action)モデルは、組み込みAIのパラダイムシフトを表している。
既存のフレームワークは、不正確な知覚、準最適マルチモーダル融合、強化学習における不安定性に苦慮している。
提案するOmniVLA-RLは,Mix-of-Transformers(MoT)設計を利用して推論,空間,行動の専門家を統合する新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-20T01:36:58Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。