論文の概要: Approximating a deep reinforcement learning docking agent using linear
model trees
- arxiv url: http://arxiv.org/abs/2203.00369v1
- Date: Tue, 1 Mar 2022 11:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 15:41:59.588060
- Title: Approximating a deep reinforcement learning docking agent using linear
model trees
- Title(参考訳): 線形モデル木を用いた深層強化学習ドッキングエージェントの近似
- Authors: Vilde B. Gj{\ae}rum, Ella-Lovise H. R{\o}rvik, Anastasios M. Lekkas
- Abstract要約: リニアモデルツリー(LMT)は、ドッキング操作を行う5つの制御入力を持つ自律表面車両のDNNポリシーを近似する。
LMTは透過的であり、入力特徴の特定の値と直接出力(制御アクション)を関連付けることができる。
シミュレーションでは、不透明なDNNポリシーが車両を制御し、LMTは並列に走行し、特徴属性の形で説明を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has led to numerous notable results in robotics.
However, deep neural networks (DNNs) are unintuitive, which makes it difficult
to understand their predictions and strongly limits their potential for
real-world applications due to economic, safety, and assurance reasons. To
remedy this problem, a number of explainable AI methods have been presented,
such as SHAP and LIME, but these can be either be too costly to be used in
real-time robotic applications or provide only local explanations. In this
paper, the main contribution is the use of a linear model tree (LMT) to
approximate a DNN policy, originally trained via proximal policy
optimization(PPO), for an autonomous surface vehicle with five control inputs
performing a docking operation. The two main benefits of the proposed approach
are: a) LMTs are transparent which makes it possible to associate directly the
outputs (control actions, in our case) with specific values of the input
features, b) LMTs are computationally efficient and can provide information in
real-time. In our simulations, the opaque DNN policy controls the vehicle and
the LMT runs in parallel to provide explanations in the form of feature
attributions. Our results indicate that LMTs can be a useful component within
digital assurance frameworks for autonomous ships.
- Abstract(参考訳): 深層強化学習はロボティクスに多くの注目すべき結果をもたらした。
しかし、ディープニューラルネットワーク(DNN)は直感的ではないため、彼らの予測を理解することは困難であり、経済的、安全性、保証上の理由から、現実世界のアプリケーションに対するポテンシャルを強く制限する。
この問題を解決するために、SHAPやLIMEなど、いくつかの説明可能なAIメソッドが提示されているが、これらは、リアルタイムロボットアプリケーションでの使用や、ローカルな説明のみを提供するにはコストがかかりすぎる。
本稿では,ドッキング操作を行う5つの制御入力を有する自律型表面車両に対して,dnnポリシを近似するリニアモデル木(lmt)を,当初はppo(proximal policy optimization)で訓練した。
提案手法の主な利点は次の2つである。
a) lmtは透過的であり、出力(私たちの場合、制御アクション)と入力特徴の特定の値を直接関連付けることができる。
b)LMTは計算効率が高く、リアルタイムで情報を提供することができる。
シミュレーションでは、不透明なDNNポリシーが車両を制御し、LMTは並列に走行し、特徴属性の形で説明を提供する。
以上の結果から,LMTは自律船のディジタル保証フレームワークの有用な構成要素である可能性が示唆された。
関連論文リスト
- OWLed: Outlier-weighed Layerwise Pruning for Efficient Autonomous Driving Framework [3.8320050452121692]
本稿では,効率的な自律運転フレームワーク Outlier-Weighed Layerwise Pruning であるOWLedを紹介する。
提案手法は,外乱特性の分布に基づいて,異なる層に対して一様でない空間比を割り当てる。
圧縮モデルが自律運転タスクに適合するようにするため、運転環境データをキャリブレーションとプルーニングの両方に組み込む。
論文 参考訳(メタデータ) (2024-11-12T10:55:30Z) - On the Road to Clarity: Exploring Explainable AI for World Models in a Driver Assistance System [3.13366804259509]
我々は畳み込み変分オートエンコーダ(VAE)のための透明なバックボーンモデルを構築した。
本稿では,予測ネットワークの内部力学と特徴関連性に関する説明と評価手法を提案する。
本稿では,都市交通状況における歩行者の認識を予測したVAE-LSTM世界モデルの解析により,提案手法を実証する。
論文 参考訳(メタデータ) (2024-04-26T11:57:17Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Symbolic Imitation Learning: From Black-Box to Explainable Driving
Policies [5.977871949434069]
我々は、利用可能なデータセットから透明で説明可能な、一般化可能な駆動ポリシーを学ぶために、シンボリックラーニング(SIL)を導入します。
以上の結果から,SILは運転方針の解釈可能性を高めるだけでなく,運転状況の異なる適用性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-09-27T21:03:45Z) - Efficient Baselines for Motion Prediction in Autonomous Driving [7.608073471097835]
複数の周辺エージェントの運動予測(MP)は、任意に複雑な環境において重要な課題である。
注意機構やGNNを含むMPのためのSOTA(State-Of-The-Art)技術を用いて,コンパクトなモデルを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-06T22:18:16Z) - Physics-informed Neural Networks-based Model Predictive Control for
Multi-link Manipulators [0.0]
物理インフォームド機械学習手法を用いて,多体ダイナミクスに対する非線形モデル予測制御(NMPC)について論じる。
本稿では,ネットワーク入力として制御動作と初期条件を付加することでPINNの強化を提案する。
PINNベースのMPCを用いて,複雑な機械システムにおける追跡問題の解法を提案する。
論文 参考訳(メタデータ) (2021-09-22T15:31:24Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z) - Out-of-Distribution Detection for Automotive Perception [58.34808836642603]
ニューラルネットワーク(NN)は、自律運転におけるオブジェクト分類に広く使われている。
NNは、アウト・オブ・ディストリビューション(OOD)データとして知られるトレーニングデータセットで適切に表現されていない入力データでフェールすることができる。
本稿では,OODデータを必要としない入力がOODであるか否かを判定し,推論の計算コストを増大させる方法を提案する。
論文 参考訳(メタデータ) (2020-11-03T01:46:35Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。