論文の概要: Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression
- arxiv url: http://arxiv.org/abs/2403.14328v1
- Date: Thu, 21 Mar 2024 11:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:38:14.937241
- Title: Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression
- Title(参考訳): ロボットロコモーションのための蒸留強化学習法:グラディエントブースティングマシンとシンボリック回帰
- Authors: Fernando Acero, Zhibin Li,
- Abstract要約: 本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
- 参考スコア(独自算出の注目度): 53.33734159983431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in reinforcement learning (RL) have led to remarkable achievements in robot locomotion capabilities. However, the complexity and ``black-box'' nature of neural network-based RL policies hinder their interpretability and broader acceptance, particularly in applications demanding high levels of safety and reliability. This paper introduces a novel approach to distill neural RL policies into more interpretable forms using Gradient Boosting Machines (GBMs), Explainable Boosting Machines (EBMs) and Symbolic Regression. By leveraging the inherent interpretability of generalized additive models, decision trees, and analytical expressions, we transform opaque neural network policies into more transparent ``glass-box'' models. We train expert neural network policies using RL and subsequently distill them into (i) GBMs, (ii) EBMs, and (iii) symbolic policies. To address the inherent distribution shift challenge of behavioral cloning, we propose to use the Dataset Aggregation (DAgger) algorithm with a curriculum of episode-dependent alternation of actions between expert and distilled policies, to enable efficient distillation of feedback control policies. We evaluate our approach on various robot locomotion gaits -- walking, trotting, bounding, and pacing -- and study the importance of different observations in joint actions for distilled policies using various methods. We train neural expert policies for 205 hours of simulated experience and distill interpretable policies with only 10 minutes of simulated interaction for each gait using the proposed method.
- Abstract(参考訳): 近年の強化学習(RL)の進歩は,ロボットの移動能力において顕著な成果をもたらしている。
しかしながら、ニューラルネットワークベースのRLポリシの複雑さと‘ブラックボックス’の性質は、特に高いレベルの安全性と信頼性を要求するアプリケーションにおいて、その解釈可能性と広く受け入れられることを妨げる。
本稿では, グラディエント・ブースティング・マシン(GBM), 説明可能なブースティング・マシン(EBM), シンボリック・レグレッションを用いて, ニューラルRLポリシーをより解釈可能な形で蒸留する方法を提案する。
一般化された加法モデル、決定木、分析式の本質的解釈可能性を活用することにより、不透明なニューラルネットワークポリシーをより透明な「グラスボックス」モデルに変換する。
我々は、RLを用いてエキスパートニューラルネットワークポリシーを訓練し、その後、それらを蒸留する。
(i)GBM
(二)EMM、及び
(三)象徴的政策
本研究では, 行動クローンの分散シフト問題に対処するため, 専門家と蒸留業者の行動の時間依存的変化のカリキュラムを用いたデータセット集約(DAgger)アルゴリズムを用いて, フィードバック制御ポリシの効率的な蒸留を可能にすることを提案する。
本研究は, 歩行, 歩行, 歩行, 歩行, 結束, ペーシングなど, 様々なロボットの移動歩行に対するアプローチを評価し, 様々な方法を用いた蒸留政策における共同行動における異なる観察の重要性について検討した。
提案手法を用いて,205時間の模擬経験と,各歩行に対する10分間の模擬相互作用で解釈可能なポリシを蒸留する。
関連論文リスト
- Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies [51.03989561425833]
本稿では、エンドツーエンドポリシー学習のためのニューラルDNF-MTと呼ばれるニューラルシンボリックアプローチを提案する。
ニューラルDNF-MTモデルの微分可能な性質は、訓練にディープアクター批判アルゴリズムを使用することを可能にする。
決定論的ポリシーの2値表現をどのように編集し、ニューラルモデルに組み込むかを示す。
論文 参考訳(メタデータ) (2025-01-07T15:51:49Z) - SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning [5.59265003686955]
SINDy-RLは,SINDyと深層強化学習を組み合わせたフレームワークである。
SINDy-RLは最先端のDRLアルゴリズムに匹敵する性能を達成する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-14T05:17:39Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Human-AI Shared Control via Frequency-based Policy Dissection [34.0399894373716]
人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。
我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
論文 参考訳(メタデータ) (2022-05-31T23:57:55Z) - Policy Distillation with Selective Input Gradient Regularization for
Efficient Interpretability [6.037276428689637]
サージェンシマップはディープニューラルネットワークの解釈可能性を提供するために頻繁に使用される。
既存のサリエンシマップアプローチは計算コストがかかるか、現実のシナリオのリアルタイム要件を満たすことができない。
本稿では, 政策蒸留と入力勾配正規化を併用した選択的な入力勾配正規化(DIGR)による蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-05-18T01:47:16Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。