論文の概要: VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2510.01623v1
- Date: Thu, 02 Oct 2025 02:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.249075
- Title: VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
- Title(参考訳): VLA-R1:ビジョン・ランゲージ・アクションモデルにおける推論の強化
- Authors: Angen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、知覚、言語理解、行動生成を統一することを目的としている。
現在のVLAモデルは、しばしば明示的なステップバイステップ推論を欠いている。
本稿では,検証リワードからの強化学習を統合した推論強化VLAであるVLA-R1を提案する。
- 参考スコア(独自算出の注目度): 35.264042764326895
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models aim to unify perception, language understanding, and action generation, offering strong cross-task and cross-scene generalization with broad impact on embodied AI. However, current VLA models often lack explicit step-by-step reasoning, instead emitting final actions without considering affordance constraints or geometric relations. Their post-training pipelines also rarely reinforce reasoning quality, relying primarily on supervised fine-tuning with weak reward design. To address these challenges, we present VLA-R1, a reasoning-enhanced VLA that integrates Reinforcement Learning from Verifiable Rewards (RLVR) with Group Relative Policy Optimization (GRPO) to systematically optimize both reasoning and execution. Specifically, we design an RLVR-based post-training strategy with verifiable rewards for region alignment, trajectory consistency, and output formatting, thereby strengthening reasoning robustness and execution accuracy. Moreover, we develop VLA-CoT-13K, a high-quality dataset that provides chain-of-thought supervision explicitly aligned with affordance and trajectory annotations. Furthermore, extensive evaluations on in-domain, out-of-domain, simulation, and real-robot platforms demonstrate that VLA-R1 achieves superior generalization and real-world performance compared to prior VLA methods. We plan to release the model, code, and dataset following the publication of this work. Code: https://github.com/GigaAI-research/VLA-R1. Website: https://gigaai-research.github.io/VLA-R1.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、認識、言語理解、アクション生成を統一することを目的としており、強力なクロスタスクとクロスシーンの一般化を提供する。
しかしながら、現在のVLAモデルは明示的なステップバイステップの推論を欠くことが多く、代わりに可測性制約や幾何学的関係を考慮せずに最終的なアクションを出力する。
訓練後のパイプラインは推論品質の強化もめったになく、主に報酬設計の弱い教師付き微調整に依存している。
これらの課題に対処するために,検証リワードからの強化学習(RLVR)とグループ相対政策最適化(GRPO)を統合し,推論と実行の両方を体系的に最適化する推論強化VLA-R1を提案する。
具体的には、領域アライメント、軌道整合性、出力フォーマッティングの検証が可能なRLVRベースのポストトレーニング戦略を設計し、ロバスト性や実行精度を向上させる。
さらに,高品質なデータセットであるVLA-CoT-13Kを開発した。
さらに、ドメイン内、ドメイン外、シミュレーション、および実ロボットプラットフォームに関する広範な評価は、VLA-R1が従来のVLA法よりも優れた一般化と実世界の性能を達成することを示す。
この作業の公開後、モデル、コード、データセットをリリースする予定です。
コード:https://github.com/GigaAI-Research/VLA-R1。
サイト:https://gigaai-research.github.io/VLA-R1。
関連論文リスト
- VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators [38.880852900641]
VLA(Vision-Language-Action)モデルは、具体的意思決定を可能にするが、模倣学習に大きく依存する。
制御可能なシミュレータとしてデータ駆動世界モデルを利用する強化微調整フレームワークであるVLA-RFTを紹介する。
400歩未満の微調整ステップで、VLA-RFTは強い教師付きベースラインを超え、シミュレータベースのRLよりも高い効率を達成する。
論文 参考訳(メタデータ) (2025-10-01T01:33:10Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model [19.141499640543138]
IRL-VLA は textbfInverse textbfReinforcement textbfLearning reward world model による新しいループ強化学習である。
本稿では, 自己構築型VLAアプローチを用いて, textbfInverse textbfReinforcement textbfLearning reward world model を用いた新しいループ強化学習であるIRL-VLAを紹介する。
論文 参考訳(メタデータ) (2025-08-07T06:30:05Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - What Can RL Bring to VLA Generalization? An Empirical Study [48.06556624096883]
VLA(Large Vision-Language Action)モデルは、AIを具現化する大きな可能性を示している。
教師付き微調整(SFT)による主な訓練は、分散シフト下での複合誤差による一般化を制限する。
本稿では,VLAの一般化評価のための総合的ベンチマークを導入し,RL微調整の影響を系統的に検討する。
論文 参考訳(メタデータ) (2025-05-26T10:19:26Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。