論文の概要: CW-ERM: Improving Autonomous Driving Planning with Closed-loop Weighted
Empirical Risk Minimization
- arxiv url: http://arxiv.org/abs/2210.02174v1
- Date: Wed, 5 Oct 2022 12:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:12:04.762356
- Title: CW-ERM: Improving Autonomous Driving Planning with Closed-loop Weighted
Empirical Risk Minimization
- Title(参考訳): CW-ERM: 閉ループ重み付き経験的リスク最小化による自律走行計画の改善
- Authors: Eesha Kumar, Yiming Zhang, Stefano Pini, Simon Stent, Ana Ferreira,
Sergey Zagoruyko, Christian S. Perone
- Abstract要約: 経験的リスク最小化(ERM)は実世界のパフォーマンスに有害である。
我々は、CW-ERM(Coffed-loop Weighted Empirical Risk Minimization)と呼ばれる効率的で簡単な実装原理を開発した。
- 参考スコア(独自算出の注目度): 7.48585648961284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The imitation learning of self-driving vehicle policies through behavioral
cloning is often carried out in an open-loop fashion, ignoring the effect of
actions to future states. Training such policies purely with Empirical Risk
Minimization (ERM) can be detrimental to real-world performance, as it biases
policy networks towards matching only open-loop behavior, showing poor results
when evaluated in closed-loop. In this work, we develop an efficient and
simple-to-implement principle called Closed-loop Weighted Empirical Risk
Minimization (CW-ERM), in which a closed-loop evaluation procedure is first
used to identify training data samples that are important for practical driving
performance and then we these samples to help debias the policy network. We
evaluate CW-ERM in a challenging urban driving dataset and show that this
procedure yields a significant reduction in collisions as well as other
non-differentiable closed-loop metrics.
- Abstract(参考訳): 行動クローニングによる自動運転車政策の模倣学習は、将来の状態に対する行動の影響を無視したオープンループ方式で行われることが多い。
経験的リスク最小化(Empirical Risk Minimization, ERM)で純粋にそのような政策を訓練することは、オープンループのみに適合する政策ネットワークに偏り、クローズドループで評価すると結果の低さを示す。
本研究では,実際の運転性能に重要なトレーニングデータサンプルを識別するためにクローズドループ評価手順を最初に用いたクローズドループ重み付き経験的リスク最小化(cw-erm)と呼ばれる効率的で実装可能な原則を開発し,これらのサンプルを用いてポリシーネットワークの偏りを解消する。
我々は,CW-ERMを難易度の高い都市運転データセットで評価し,この手法が衝突の大幅な低減と,他の非微分不能閉ループ測定値を示す。
関連論文リスト
- CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。
RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文 参考訳(メタデータ) (2024-06-13T07:31:29Z) - Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation [2.2120851074630177]
ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。
リプシッツ正則化は、近似値関数勾配の条件付けに役立ち、訓練後のロバスト性の向上につながる。
論文 参考訳(メタデータ) (2024-04-22T05:01:29Z) - Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。
PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。
DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文 参考訳(メタデータ) (2021-03-03T09:59:43Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions:
from Models to Offline Evaluation [41.21447375318793]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。