Fugu-MT 論文翻訳(概要): V-Max: Making RL practical for Autonomous Driving

論文の概要: V-Max: Making RL practical for Autonomous Driving

arxiv url: http://arxiv.org/abs/2503.08388v1
Date: Tue, 11 Mar 2025 12:53:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.77034
Title: V-Max: Making RL practical for Autonomous Driving
Title（参考訳）: V-Max: 自動運転におけるRLの実現
Authors: Valentin Charraut, Thomas Tournaire, Waël Doulazmi, Thibault Buhet,
Abstract要約: V-Maxは、自動運転のためにReinforcement Learningを実践するために必要なツールをすべて提供するオープンリサーチフレームワークである。大規模実験用に設計されたハードウェアアクセラレーションADシミュレータであるWaymax上に構築されている。 V-Maxは観察機能と報酬機能、トランスフォーマーベースのエンコーダ、トレーニングパイプラインを統合している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning-based decision-making has the potential to enable generalizable Autonomous Driving (AD) policies, reducing the engineering overhead of rule-based approaches. Imitation Learning (IL) remains the dominant paradigm, benefiting from large-scale human demonstration datasets, but it suffers from inherent limitations such as distribution shift and imitation gaps. Reinforcement Learning (RL) presents a promising alternative, yet its adoption in AD remains limited due to the lack of standardized and efficient research frameworks. To this end, we introduce V-Max, an open research framework providing all the necessary tools to make RL practical for AD. V-Max is built on Waymax, a hardware-accelerated AD simulator designed for large-scale experimentation. We extend it using ScenarioNet's approach, enabling the fast simulation of diverse AD datasets. V-Max integrates a set of observation and reward functions, transformer-based encoders, and training pipelines. Additionally, it includes adversarial evaluation settings and an extensive set of evaluation metrics. Through a large-scale benchmark, we analyze how network architectures, observation functions, training data, and reward shaping impact RL performance.
Abstract（参考訳）: 学習ベースの意思決定は、汎用可能な自律運転(AD)ポリシーを可能にする可能性があり、ルールベースのアプローチのエンジニアリングオーバーヘッドを低減する。イミテーションラーニング(IL)は、大規模な人間の実演データセットの恩恵を受けながら、依然として支配的なパラダイムであるが、分布シフトや模倣ギャップといった固有の制限に悩まされている。強化学習(RL)は有望な代替手段であるが、標準化された効率的な研究フレームワークが欠如しているため、ADでの採用は制限されている。この目的のために我々は,ADにRLを実用化するために必要なツールをすべて提供するオープンリサーチフレームワークであるV-Maxを紹介した。 V-Maxは大規模実験用に設計されたハードウェアアクセラレーションADシミュレータであるWaymax上に構築されている。 ScenarioNetのアプローチを使って拡張し、多様なADデータセットの高速なシミュレーションを可能にします。 V-Maxは観察機能と報酬機能、トランスフォーマーベースのエンコーダ、トレーニングパイプラインを統合している。さらに、敵対的な評価設定と、幅広い評価指標が含まれています。大規模ベンチマークにより、ネットワークアーキテクチャ、観測関数、トレーニングデータ、報酬形成がRLパフォーマンスに与える影響を分析する。

関連論文リスト

ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [35.493857028919685]
本研究では,視覚言語モデルと拡散プランナを統合した自律運転システムReCogDriveを提案する。本稿では,大規模運転質問応答データセットを用いてVLMの訓練を行い,汎用コンテンツと実世界の運転シナリオとのドメイン差を緩和する。第2段階では、拡散型プランナーを用いて模倣学習を行い、潜在言語空間から連続運転行動への表現をマッピングする。
論文参考訳（メタデータ） (2025-06-09T03:14:04Z)
High-Performance Reinforcement Learning on Spot: Optimizing Simulation Parameters with Distributional Measures [8.437187555622167]
本稿では,Boston Dynamics Spot上での低レベルモータアクセスのためのSpot RL Researcher Development Kitを用いて,高性能強化学習ポリシーの展開の背景となる技術的詳細について述べる。我々は,5.2ms以上のロコモーション,トリプルSpotsデフォルトのコントローラの最大速度以上のポリシを,滑りやすい表面への展開,外乱の拒絶,これまでSpotで見つからなかった全体的なアジリティに展開する。
論文参考訳（メタデータ） (2025-04-24T18:01:36Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。 ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文参考訳（メタデータ） (2025-01-31T18:57:08Z)
Application of Multimodal Large Language Models in Autonomous Driving [1.8181868280594944]
マルチモーダル大言語モデルの実装について詳細な研究を行う。自律運転におけるMLLMの性能の低下に対処する。次に、シーン理解、予測、意思決定によってAD意思決定プロセスを分解する。
論文参考訳（メタデータ） (2024-12-21T00:09:52Z)
Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。本稿では,Reward-Extended Differential(RED)強化学習について紹介する。Reward-Extended Differential(RED)強化学習は,様々な学習目的,すなわちサブタスクを,平均リワード設定で同時に効果的かつ効率的に解ける新しいRLフレームワークである。
論文参考訳（メタデータ） (2024-10-14T14:52:23Z)
Sample-efficient Imitative Multi-token Decision Transformer for Real-world Driving [18.34685506480288]
我々はSimDT(SimDT)を提案する。 SimDTでは、マルチトークン予測、オンライン模倣学習パイプライン、シーケンスモデリング強化学習への優先的なエクスペリエンスリプレイが導入されている。結果は、Waymaxベンチマークのオープンループとクローズループ設定の両方で、人気のある模倣と強化学習アルゴリズムを上回る。
論文参考訳（メタデータ） (2024-06-18T14:27:14Z)
Machine Unlearning of Pre-trained Large Language Models [17.40601262379265]
本研究では,大規模言語モデル(LLM)の文脈における「忘れられる権利」の概念について検討する。我々は、事前学習されたモデルに焦点をあてて、機械学習を重要なソリューションとして探求する。
論文参考訳（メタデータ） (2024-02-23T07:43:26Z)
Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2022-02-22T20:44:04Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文参考訳（メタデータ） (2021-02-18T13:49:28Z)
Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文参考訳（メタデータ） (2020-11-19T22:35:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。