論文の概要: IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model
- arxiv url: http://arxiv.org/abs/2508.06571v3
- Date: Fri, 15 Aug 2025 05:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 12:50:03.055816
- Title: IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model
- Title(参考訳): IRL-VLA:Reward World Modelによるビジョンランゲージ・アクション・ポリシーのトレーニング
- Authors: Anqing Jiang, Yu Gao, Yiru Wang, Zhigang Sun, Shuo Wang, Yuwen Heng, Hao Sun, Shichen Tang, Lijuan Zhu, Jinhao Chai, Jijun Wang, Zichong Gu, Hao Jiang, Li Sun,
- Abstract要約: IRL-VLA は textbfInverse textbfReinforcement textbfLearning reward world model による新しいループ強化学習である。
本稿では, 自己構築型VLAアプローチを用いて, textbfInverse textbfReinforcement textbfLearning reward world model を用いた新しいループ強化学習であるIRL-VLAを紹介する。
- 参考スコア(独自算出の注目度): 19.141499640543138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated potential in autonomous driving. However, two critical challenges hinder their development: (1) Existing VLA architectures are typically based on imitation learning in open-loop setup which tends to capture the recorded behaviors in the dataset, leading to suboptimal and constrained performance, (2) Close-loop training relies heavily on high-fidelity sensor simulation, where domain gaps and computational inefficiencies pose significant barriers. In this paper, we introduce IRL-VLA, a novel close-loop Reinforcement Learning via \textbf{I}nverse \textbf{R}einforcement \textbf{L}earning reward world model with a self-built VLA approach. Our framework proceeds in a three-stage paradigm: In the first stage, we propose a VLA architecture and pretrain the VLA policy via imitation learning. In the second stage, we construct a lightweight reward world model via inverse reinforcement learning to enable efficient close-loop reward computation. To further enhance planning performance, finally, we design specialized reward world model guidence reinforcement learning via PPO(Proximal Policy Optimization) to effectively balance the safety incidents, comfortable driving, and traffic efficiency. Our approach achieves state-of-the-art performance in NAVSIM v2 end-to-end driving benchmark, 1st runner up in CVPR2025 Autonomous Grand Challenge. We hope that our framework will accelerate VLA research in close-loop autonomous driving.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、自動運転の可能性を実証している。
既存のVLAアーキテクチャは、データセット内の記録された振る舞いをキャプチャする傾向にあるオープンループセットアップにおける模倣学習に基づいており、最適で制約のあるパフォーマンスをもたらす。
本稿では,自己構築型VLAアプローチを用いて,新しいループ強化学習であるIRL-VLAを紹介する。
最初の段階では、VLAアーキテクチャを提案し、模倣学習を通じてVLAポリシーを事前訓練します。
第2段階では、逆強化学習を用いて軽量な報奨世界モデルを構築し、効率的なクローズループ報酬計算を実現する。
計画性能をさらに向上するため,PPO(Proximal Policy Optimization)を用いた特別報酬世界モデル指導強化学習を設計し,安全事故,快適運転,交通効率を効果的にバランスさせる。
CVPR2025autonomous Grand Challengeでは,NAVSIM v2のエンドツーエンド運転ベンチマークで最先端の性能を実現した。
われわれのフレームワークは、近ループ自動運転におけるVLAの研究を加速することを期待している。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - VLA-R1: Enhancing Reasoning in Vision-Language-Action Models [35.264042764326895]
VLA(Vision-Language-Action)モデルは、知覚、言語理解、行動生成を統一することを目的としている。
現在のVLAモデルは、しばしば明示的なステップバイステップ推論を欠いている。
本稿では,検証リワードからの強化学習を統合した推論強化VLAであるVLA-R1を提案する。
論文 参考訳(メタデータ) (2025-10-02T02:54:03Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [35.493857028919685]
本研究では,視覚言語モデルと拡散プランナを統合した自律運転システムReCogDriveを提案する。
本稿では,大規模運転質問応答データセットを用いてVLMの訓練を行い,汎用コンテンツと実世界の運転シナリオとのドメイン差を緩和する。
第2段階では、拡散型プランナーを用いて模倣学習を行い、潜在言語空間から連続運転行動への表現をマッピングする。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding [24.1236728596359]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
本稿では,アクションチャンキングと統合されたVLAモデルのための最初の並列デコーディングフレームワークであるPD-VLAを提案する。
本フレームワークは,並列な固定点反復によって解く非線形システムとして自己回帰復号を再構成する。
論文 参考訳(メタデータ) (2025-03-04T06:12:08Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。