Fugu-MT 論文翻訳(概要): CW-ERM: Improving Autonomous Driving Planning with Closed-loop Weighted Empirical Risk Minimization

論文の概要: CW-ERM: Improving Autonomous Driving Planning with Closed-loop Weighted Empirical Risk Minimization

arxiv url: http://arxiv.org/abs/2210.02174v1
Date: Wed, 5 Oct 2022 12:02:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 15:12:04.762356
Title: CW-ERM: Improving Autonomous Driving Planning with Closed-loop Weighted Empirical Risk Minimization
Title（参考訳）: CW-ERM: 閉ループ重み付き経験的リスク最小化による自律走行計画の改善
Authors: Eesha Kumar, Yiming Zhang, Stefano Pini, Simon Stent, Ana Ferreira, Sergey Zagoruyko, Christian S. Perone
Abstract要約: 経験的リスク最小化(ERM)は実世界のパフォーマンスに有害である。我々は、CW-ERM(Coffed-loop Weighted Empirical Risk Minimization)と呼ばれる効率的で簡単な実装原理を開発した。
参考スコア（独自算出の注目度）: 7.48585648961284
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The imitation learning of self-driving vehicle policies through behavioral cloning is often carried out in an open-loop fashion, ignoring the effect of actions to future states. Training such policies purely with Empirical Risk Minimization (ERM) can be detrimental to real-world performance, as it biases policy networks towards matching only open-loop behavior, showing poor results when evaluated in closed-loop. In this work, we develop an efficient and simple-to-implement principle called Closed-loop Weighted Empirical Risk Minimization (CW-ERM), in which a closed-loop evaluation procedure is first used to identify training data samples that are important for practical driving performance and then we these samples to help debias the policy network. We evaluate CW-ERM in a challenging urban driving dataset and show that this procedure yields a significant reduction in collisions as well as other non-differentiable closed-loop metrics.
Abstract（参考訳）: 行動クローニングによる自動運転車政策の模倣学習は、将来の状態に対する行動の影響を無視したオープンループ方式で行われることが多い。経験的リスク最小化(Empirical Risk Minimization, ERM)で純粋にそのような政策を訓練することは、オープンループのみに適合する政策ネットワークに偏り、クローズドループで評価すると結果の低さを示す。本研究では,実際の運転性能に重要なトレーニングデータサンプルを識別するためにクローズドループ評価手順を最初に用いたクローズドループ重み付き経験的リスク最小化(cw-erm)と呼ばれる効率的で実装可能な原則を開発し,これらのサンプルを用いてポリシーネットワークの偏りを解消する。我々は,CW-ERMを難易度の高い都市運転データセットで評価し,この手法が衝突の大幅な低減と,他の非微分不能閉ループ測定値を示す。

関連論文リスト

Pseudo-Simulation for Autonomous Driving [54.0732376977553]
既存の自動運転車(AV)の評価パラダイムは、重大な制限に直面している。現実世界の評価は、安全上の懸念と現実主義の欠如のためにしばしば困難である。オープンループ評価は、一般的に複合的なエラーを見落としているメトリクスに依存する。
論文参考訳（メタデータ） (2025-06-04T17:57:53Z)
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。 RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文参考訳（メタデータ） (2024-06-13T07:31:29Z)
Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation [2.2120851074630177]
ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。リプシッツ正則化は、近似値関数勾配の条件付けに役立ち、訓練後のロバスト性の向上につながる。
論文参考訳（メタデータ） (2024-04-22T05:01:29Z)
Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文参考訳（メタデータ） (2023-09-04T20:52:04Z)
Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文参考訳（メタデータ） (2021-11-03T08:02:48Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。 PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。 DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文参考訳（メタデータ） (2021-03-03T09:59:43Z)
Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文参考訳（メタデータ） (2021-02-18T08:54:14Z)
Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文参考訳（メタデータ） (2020-11-26T14:58:49Z)
Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。 1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T03:27:59Z)
Counterfactual Learning of Stochastic Policies with Continuous Actions: from Models to Offline Evaluation [41.21447375318793]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。対実学習の最適化の側面が重要であることを実証的に示す。実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文参考訳（メタデータ） (2020-04-22T07:42:30Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。