論文の概要: Found-RL: foundation model-enhanced reinforcement learning for autonomous driving
- arxiv url: http://arxiv.org/abs/2602.10458v1
- Date: Wed, 11 Feb 2026 02:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.413157
- Title: Found-RL: foundation model-enhanced reinforcement learning for autonomous driving
- Title(参考訳): Found-RL: 自律運転のための基礎モデル強化学習
- Authors: Yansong Qu, Zihao Sheng, Zilin Huang, Jiancong Chen, Yuhao Luo, Tianyi Wang, Yiheng Feng, Samuel Labi, Sikai Chen,
- Abstract要約: エンドツーエンド自動運転(AD)の主流パラダイムとして強化学習(RL)が登場している。
Found-RLは、基礎モデルを使用してADのためのRLを効率的に拡張するプラットフォームである。
コアとなるイノベーションは非同期バッチ推論フレームワークで、シミュレーションループから重いVLM推論を分離する。
- 参考スコア(独自算出の注目度): 15.275134927543611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has emerged as a dominant paradigm for end-to-end autonomous driving (AD). However, RL suffers from sample inefficiency and a lack of semantic interpretability in complex scenarios. Foundation Models, particularly Vision-Language Models (VLMs), can mitigate this by offering rich, context-aware knowledge, yet their high inference latency hinders deployment in high-frequency RL training loops. To bridge this gap, we present Found-RL, a platform tailored to efficiently enhance RL for AD using foundation models. A core innovation is the asynchronous batch inference framework, which decouples heavy VLM reasoning from the simulation loop, effectively resolving latency bottlenecks to support real-time learning. We introduce diverse supervision mechanisms: Value-Margin Regularization (VMR) and Advantage-Weighted Action Guidance (AWAG) to effectively distill expert-like VLM action suggestions into the RL policy. Additionally, we adopt high-throughput CLIP for dense reward shaping. We address CLIP's dynamic blindness via Conditional Contrastive Action Alignment, which conditions prompts on discretized speed/command and yields a normalized, margin-based bonus from context-specific action-anchor scoring. Found-RL provides an end-to-end pipeline for fine-tuned VLM integration and shows that a lightweight RL model can achieve near-VLM performance compared with billion-parameter VLMs while sustaining real-time inference (approx. 500 FPS). Code, data, and models will be publicly available at https://github.com/ys-qu/found-rl.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、エンドツーエンド自動運転(AD)の主流パラダイムとして登場した。
しかし、RLは複雑なシナリオにおいて、サンプルの非効率性と意味論的解釈性の欠如に悩まされている。
Foundation Models、特にVLM(Vision-Language Models)は、リッチでコンテキスト対応の知識を提供することによって、これを緩和することができるが、その高い推論遅延は、高周波RLトレーニングループへのデプロイメントを妨げる。
このギャップを埋めるために,基礎モデルを用いてADのためのRLを効率的に拡張するプラットフォームFound-RLを提案する。
このフレームワークはシミュレーションループから重いVLM推論を分離し、遅延ボトルネックを効果的に解決し、リアルタイム学習をサポートする。
本稿では,VMR (Value-Margin Regularization) とAdvantage-Weighted Action Guidance (Advantage-Weighted Action Guidance, AWAG) の2つのメカニズムを紹介する。
また,高スループットCLIPを高密度報酬形成に適用した。
コンディショナル・コントラスト・アクション・アライメント(Conditional Contrastive Action Alignment)は,コンディショナル・コントラスト・アクション・アライメント(Conditional Contrastive Action Alignment)を介し,コンディショナル・コントラスト・アクション・アライメント(Conditional Contrastive Action Alignment)のダイナミック・ブラインドに対処する。
Found-RLは、微調整されたVLM統合のためのエンドツーエンドパイプラインを提供し、軽量なRLモデルは、リアルタイムな推論(約500 FPS)を維持しながら、数十億パラメータのVLMと比較して、ほぼVLMのパフォーマンスを実現することができることを示す。
コード、データ、モデルはhttps://github.com/ys-qu/found-rl.comで公開される。
関連論文リスト
- Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Expressive Value Learning for Scalable Offline Reinforcement Learning [9.946269411850064]
強化学習(Reinforcement Learning, RL)は、意思決定の順序を学習するための強力なパラダイムである。
オフラインRLは、大規模で多様なデータセットのトレーニングエージェントによる有望な道を提供する。
オフライン強化学習のための表現的価値学習(EVOR)を導入する。これはスケーラブルなオフラインRLアプローチであり、表現的ポリシーと表現的価値関数を統合している。
論文 参考訳(メタデータ) (2025-10-09T13:42:20Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models [29.090093552573766]
本稿では,VLA(Vision-Language-Action)フローモデルに対するオフラインRLポストトレーニング目標を提案する。
次に、効率よく実現可能なオフラインRL微調整アルゴリズム -- Adaptive Reinforced Flow Matching (ARFM) を誘導する。
ARFMは優れた一般化、堅牢性、少数ショット学習、継続的な学習性能を示す。
論文 参考訳(メタデータ) (2025-09-04T09:48:43Z) - Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance [46.06527859746679]
本稿では,Dejin-Free Guidance(CFG)に適応する推論時間法であるReinforcement Learning Guidance(RLG)を紹介する。
RLGは、RLの細調整されたモデルの性能を、人間の好み、構成制御、圧縮、テキストレンダリングなど、様々なRLアルゴリズム、下流タスクで一貫して改善している。
提案手法は,拡散モデルアライメント推論の強化と制御のための,実用的で理論的に健全な解を提供する。
論文 参考訳(メタデータ) (2025-08-28T17:18:31Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Prompt-Tuned LLM-Augmented DRL for Dynamic O-RAN Network Slicing [5.62872273155603]
大規模言語モデル(LLM)は、無秩序なネットワークフィードバックを意味のある潜在表現に構造化する。
O-RANスライシングでは、SNR、パワーレベル、スループットといった概念が意味的に関連している。
学習可能なプロンプトをLLM拡張DRLフレームワークに統合した文脈化に基づく適応手法を提案する。
論文 参考訳(メタデータ) (2025-05-31T14:12:56Z) - VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving [1.3107174618549584]
自動運転政策を学習するための強化学習(RL)に基づく手法は、自動運転コミュニティにおいて注目を集めている。
従来のRLアプローチは手作業による報酬に依存しており、それは広範囲の人的努力を必要とし、しばしば一般化性に欠ける。
我々は、事前訓練された視覚言語モデル(VLM)とRLを統合して報酬信号を生成する統合フレームワークである textbfVLM-RL を提案する。
論文 参考訳(メタデータ) (2024-12-20T04:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。