論文の概要: Learning Interpretable, High-Performing Policies for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2202.02352v3
- Date: Mon, 31 Jul 2023 17:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 01:06:10.530956
- Title: Learning Interpretable, High-Performing Policies for Autonomous Driving
- Title(参考訳): 自律運転のための解釈可能・高性能政策の学習
- Authors: Rohan Paleja, Yaru Niu, Andrew Silva, Chace Ritchie, Sugju Choi,
Matthew Gombolay
- Abstract要約: 本稿では,高パフォーマンスかつ解釈可能なポリシーを生成するために,ICCT(Interpretable Continuous Control Trees)を提案する。
ICCTはツリーベースモデルであり、最新の勾配ベースのRLアプローチによって最適化できる。
ICCTは6つの領域にまたがるベースラインに対して検証を行い,ADシナリオで最大33%の精度でベースラインを同等あるいは優れる解釈可能なポリシー表現を学習可能であることを示した。
- 参考スコア(独自算出の注目度): 6.025339045092536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based approaches in reinforcement learning (RL) have achieved
tremendous success in learning policies for autonomous vehicles. While the
performance of these approaches warrants real-world adoption, these policies
lack interpretability, limiting deployability in the safety-critical and
legally-regulated domain of autonomous driving (AD). AD requires interpretable
and verifiable control policies that maintain high performance. We propose
Interpretable Continuous Control Trees (ICCTs), a tree-based model that can be
optimized via modern, gradient-based, RL approaches to produce high-performing,
interpretable policies. The key to our approach is a procedure for allowing
direct optimization in a sparse decision-tree-like representation. We validate
ICCTs against baselines across six domains, showing that ICCTs are capable of
learning interpretable policy representations that parity or outperform
baselines by up to 33% in AD scenarios while achieving a 300x-600x reduction in
the number of policy parameters against deep learning baselines. Furthermore,
we demonstrate the interpretability and utility of our ICCTs through a 14-car
physical robot demonstration.
- Abstract(参考訳): 強化学習(RL)におけるグラディエントに基づくアプローチは、自動運転車の学習政策において大きな成功を収めた。
これらのアプローチのパフォーマンスは現実的な採用を保証しますが、これらのポリシーには解釈可能性がなく、安全クリティカルで法的に規制された自律運転(AD)分野におけるデプロイ可能性に制限があります。
ADは高い性能を維持するための解釈可能かつ検証可能な制御ポリシーを必要とする。
本稿では,高パフォーマンスかつ解釈可能なポリシを生成するために,現代的な勾配に基づくRLアプローチによって最適化可能なツリーベースモデルであるICCTを提案する。
我々のアプローチの鍵は、疎い決定木のような表現で直接最適化できる手順である。
ICCTは6つの領域にまたがるベースラインに対して有効であり,ADシナリオにおいて最大33%の精度で,かつ,ディープラーニングベースラインに対するポリシーパラメータの300倍-600倍の削減を実現している。
さらに,14両の物理的ロボットを実演し,icctの解釈性と有用性を示す。
関連論文リスト
- Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Symbolic Imitation Learning: From Black-Box to Explainable Driving
Policies [5.977871949434069]
我々は、利用可能なデータセットから透明で説明可能な、一般化可能な駆動ポリシーを学ぶために、シンボリックラーニング(SIL)を導入します。
以上の結果から,SILは運転方針の解釈可能性を高めるだけでなく,運転状況の異なる適用性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-09-27T21:03:45Z) - Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation [42.66792060626531]
既存のロバストで適応的なコントローラは、オンライン上の重い計算を犠牲にして、素晴らしいパフォーマンスを達成することができる。
我々は、MPCからの堅牢なポリシー学習のための既存の効率的なImitation Learning(IL)アルゴリズムを拡張し、挑戦的なモデル/環境の不確実性に対応するポリシーを学習する能力を拡張した。
論文 参考訳(メタデータ) (2023-03-28T02:22:47Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Policy Distillation with Selective Input Gradient Regularization for
Efficient Interpretability [6.037276428689637]
サージェンシマップはディープニューラルネットワークの解釈可能性を提供するために頻繁に使用される。
既存のサリエンシマップアプローチは計算コストがかかるか、現実のシナリオのリアルタイム要件を満たすことができない。
本稿では, 政策蒸留と入力勾配正規化を併用した選択的な入力勾配正規化(DIGR)による蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-05-18T01:47:16Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Uncertainty-Aware Model-Based Reinforcement Learning with Application to
Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。
このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。
開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文 参考訳(メタデータ) (2021-06-23T06:55:14Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。