Fugu-MT 論文翻訳(概要): CaRL: Learning Scalable Planning Policies with Simple Rewards

論文の概要: CaRL: Learning Scalable Planning Policies with Simple Rewards

arxiv url: http://arxiv.org/abs/2504.17838v1
Date: Thu, 24 Apr 2025 17:56:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.539981
Title: CaRL: Learning Scalable Planning Policies with Simple Rewards
Title（参考訳）: CaRL: シンプルなリワードでスケーラブルなプランニングポリシを学ぶ
Authors: Bernhard Jaeger, Daniel Dauner, Jens Beißwenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger,
Abstract要約: 強化学習はスケーラブルで、模倣学習のような複雑なエラーに苦しむことはない。ミニバッチサイズが大きくなると、PPOはこれらの報酬の一般的なバージョンを最適化できないことを示す。本稿では,1つの直感的な報酬項,すなわち経路完了を最適化する新しい報酬設計を提案する。 PPOは、私たちの単純な報酬でトレーニングされた場合、より高いミニバッチサイズでスケールでき、パフォーマンスも向上します。
参考スコア（独自算出の注目度）: 24.472861976593514
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate reinforcement learning (RL) for privileged planning in autonomous driving. State-of-the-art approaches for this task are rule-based, but these methods do not scale to the long tail. RL, on the other hand, is scalable and does not suffer from compounding errors like imitation learning. Contemporary RL approaches for driving use complex shaped rewards that sum multiple individual rewards, \eg~progress, position, or orientation rewards. We show that PPO fails to optimize a popular version of these rewards when the mini-batch size is increased, which limits the scalability of these approaches. Instead, we propose a new reward design based primarily on optimizing a single intuitive reward term: route completion. Infractions are penalized by terminating the episode or multiplicatively reducing route completion. We find that PPO scales well with higher mini-batch sizes when trained with our simple reward, even improving performance. Training with large mini-batch sizes enables efficient scaling via distributed data parallelism. We scale PPO to 300M samples in CARLA and 500M samples in nuPlan with a single 8-GPU node. The resulting model achieves 64 DS on the CARLA longest6 v2 benchmark, outperforming other RL methods with more complex rewards by a large margin. Requiring only minimal adaptations from its use in CARLA, the same method is the best learning-based approach on nuPlan. It scores 91.3 in non-reactive and 90.6 in reactive traffic on the Val14 benchmark while being an order of magnitude faster than prior work.
Abstract（参考訳）: 自律運転における特権計画のための強化学習(RL)について検討する。このタスクの最先端のアプローチはルールベースであるが、これらの手法は長い尾までスケールしない。一方RLはスケーラブルで、模倣学習のような複雑なエラーに悩まされない。現代の運転用RLアプローチでは、複雑な形状の報酬を使用して、複数の個人報酬(eg~プログレス、位置、方向の報酬)を和らげている。ミニバッチサイズが大きくなると、PPOはこれらの報酬の一般的なバージョンを最適化できないことが示され、これらのアプローチのスケーラビリティが制限される。そこで本研究では,主に1つの直感的な報酬項,すなわち経路完了の最適化に基づく新たな報酬設計を提案する。違反は、エピソードを終了させたり、経路完了を乗算的に減少させたりすることで罰せられる。 PPOは、私たちの単純な報酬でトレーニングされた場合、より高いミニバッチサイズでスケールでき、パフォーマンスも向上します。大きなミニバッチサイズのトレーニングは、分散データ並列性による効率的なスケーリングを可能にする。 CARLAではPPOを3億、nuPlanでは5億のサンプルを1つの8GPUノードでスケーリングする。結果として得られたモデルは、CARLAの6v2ベンチマークで64DSに達し、より複雑な報酬で他のRLメソッドよりも優れています。 CARLAでの使用から最小限の適応しか必要とせず、同じ方法がnuPlan上で最高の学習ベースのアプローチである。非反応性では91.3、Val14ベンチマークでは90.6で、前よりも桁違いに高速である。

関連論文リスト

Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。 PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文参考訳（メタデータ） (2025-07-01T09:43:57Z)
TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。 GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文参考訳（メタデータ） (2025-06-05T15:56:38Z)
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [60.67176246634741]
メタ強化学習(RL)問題としてテスト時間計算を最適化する問題を定式化する。現状のモデルでは後悔を最小限に抑えることはできないが,結果0/1報酬RLと合わせて報酬ボーナスを最大化することで,それを実現できることを示す。
論文参考訳（メタデータ） (2025-03-10T17:40:43Z)
Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2229964736678]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文参考訳（メタデータ） (2025-01-22T02:48:14Z)
DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-11-02T17:57:38Z)
ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models [30.276168676690045]
ヒトフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)の整合化の鍵となる。本稿では,RLHFの3つの特性(高速シミュレーション,決定論的遷移,軌道レベルの報酬)を活用するReMaxを提案する。実装が簡単で、PPOの4つ以上のハイパーパラメータを排除し、GPUメモリ使用量を削減し、トレーニング時間を短縮する。 Mistral-7BモデルにReMaxを適用すると、AlpacaEvalのリーダーボードで94.78%の勝利率、MT-benchで7.739のスコアが得られ、オープンソース7Bモデル向けに新しいSOTAが設定された。
論文参考訳（メタデータ） (2023-10-16T15:25:14Z)
Benchmarking Potential Based Rewards for Learning Humanoid Locomotion [10.406358397515838]
十分に設計されたシェーピング報酬は、学習を著しく速くする可能性がある。理論的には、PBRS(英語版)は最適政策に影響を与えることなく学習プロセスを導くのに役立つ。本稿では,ヒューマノイドロボットのPBRSによる標準形状のベンチマークを行う。
論文参考訳（メタデータ） (2023-07-19T17:12:28Z)
Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文参考訳（メタデータ） (2023-01-30T12:51:13Z)
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文参考訳（メタデータ） (2022-11-20T21:48:25Z)
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。 PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-06-13T19:11:22Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)
Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。 192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文参考訳（メタデータ） (2020-06-24T05:00:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。