論文の概要: V-Max: Making RL practical for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.08388v1
- Date: Tue, 11 Mar 2025 12:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.77034
- Title: V-Max: Making RL practical for Autonomous Driving
- Title(参考訳): V-Max: 自動運転におけるRLの実現
- Authors: Valentin Charraut, Thomas Tournaire, Waël Doulazmi, Thibault Buhet,
- Abstract要約: V-Maxは、自動運転のためにReinforcement Learningを実践するために必要なツールをすべて提供するオープンリサーチフレームワークである。
大規模実験用に設計されたハードウェアアクセラレーションADシミュレータであるWaymax上に構築されている。
V-Maxは観察機能と報酬機能、トランスフォーマーベースのエンコーダ、トレーニングパイプラインを統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based decision-making has the potential to enable generalizable Autonomous Driving (AD) policies, reducing the engineering overhead of rule-based approaches. Imitation Learning (IL) remains the dominant paradigm, benefiting from large-scale human demonstration datasets, but it suffers from inherent limitations such as distribution shift and imitation gaps. Reinforcement Learning (RL) presents a promising alternative, yet its adoption in AD remains limited due to the lack of standardized and efficient research frameworks. To this end, we introduce V-Max, an open research framework providing all the necessary tools to make RL practical for AD. V-Max is built on Waymax, a hardware-accelerated AD simulator designed for large-scale experimentation. We extend it using ScenarioNet's approach, enabling the fast simulation of diverse AD datasets. V-Max integrates a set of observation and reward functions, transformer-based encoders, and training pipelines. Additionally, it includes adversarial evaluation settings and an extensive set of evaluation metrics. Through a large-scale benchmark, we analyze how network architectures, observation functions, training data, and reward shaping impact RL performance.
- Abstract(参考訳): 学習ベースの意思決定は、汎用可能な自律運転(AD)ポリシーを可能にする可能性があり、ルールベースのアプローチのエンジニアリングオーバーヘッドを低減する。
イミテーションラーニング(IL)は、大規模な人間の実演データセットの恩恵を受けながら、依然として支配的なパラダイムであるが、分布シフトや模倣ギャップといった固有の制限に悩まされている。
強化学習(RL)は有望な代替手段であるが、標準化された効率的な研究フレームワークが欠如しているため、ADでの採用は制限されている。
この目的のために我々は,ADにRLを実用化するために必要なツールをすべて提供するオープンリサーチフレームワークであるV-Maxを紹介した。
V-Maxは大規模実験用に設計されたハードウェアアクセラレーションADシミュレータであるWaymax上に構築されている。
ScenarioNetのアプローチを使って拡張し、多様なADデータセットの高速なシミュレーションを可能にします。
V-Maxは観察機能と報酬機能、トランスフォーマーベースのエンコーダ、トレーニングパイプラインを統合している。
さらに、敵対的な評価設定と、幅広い評価指標が含まれています。
大規模ベンチマークにより、ネットワークアーキテクチャ、観測関数、トレーニングデータ、報酬形成がRLパフォーマンスに与える影響を分析する。
関連論文リスト
- High-Performance Reinforcement Learning on Spot: Optimizing Simulation Parameters with Distributional Measures [8.437187555622167]
本稿では,Boston Dynamics Spot上での低レベルモータアクセスのためのSpot RL Researcher Development Kitを用いて,高性能強化学習ポリシーの展開の背景となる技術的詳細について述べる。
我々は,5.2ms以上のロコモーション,トリプルSpotsデフォルトのコントローラの最大速度以上のポリシを,滑りやすい表面への展開,外乱の拒絶,これまでSpotで見つからなかった全体的なアジリティに展開する。
論文 参考訳(メタデータ) (2025-04-24T18:01:36Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - Sample-efficient Imitative Multi-token Decision Transformer for Real-world Driving [18.34685506480288]
我々はSimDT(SimDT)を提案する。
SimDTでは、マルチトークン予測、オンライン模倣学習パイプライン、シーケンスモデリング強化学習への優先的なエクスペリエンスリプレイが導入されている。
結果は、Waymaxベンチマークのオープンループとクローズループ設定の両方で、人気のある模倣と強化学習アルゴリズムを上回る。
論文 参考訳(メタデータ) (2024-06-18T14:27:14Z) - Machine Unlearning of Pre-trained Large Language Models [17.40601262379265]
本研究では,大規模言語モデル(LLM)の文脈における「忘れられる権利」の概念について検討する。
我々は、事前学習されたモデルに焦点をあてて、機械学習を重要なソリューションとして探求する。
論文 参考訳(メタデータ) (2024-02-23T07:43:26Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。
我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。
本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-22T20:44:04Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。