論文の概要: Neural-to-Tree Policy Distillation with Policy Improvement Criterion
- arxiv url: http://arxiv.org/abs/2108.06898v1
- Date: Mon, 16 Aug 2021 05:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 23:34:07.092406
- Title: Neural-to-Tree Policy Distillation with Policy Improvement Criterion
- Title(参考訳): 政策改善基準付きニューラル・トゥ・ツリー政策蒸留
- Authors: Zhao-Hua Li, Yang Yu, Yingfeng Chen, Ke Chen, Zhipeng Hu, Changjie Fan
- Abstract要約: ブラックボックスモデルに対する洞察を得るための可能な方法は、決定木のような解釈可能なモデルにそれを蒸留することである。
モデル動作を小さなエラーでもクローンする典型的なポリシー蒸留は、データ分散シフトをもたらす可能性がある。
本稿では, 蒸留の目的を挙動クローニングから有効性評価の最大化に転換することで, この問題に対処することを提案する。
- 参考スコア(独自算出の注目度): 28.262400646275793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep reinforcement learning has achieved promising results in
challenging decision-making tasks, the main bones of its success --- deep
neural networks are mostly black-boxes. A feasible way to gain insight into a
black-box model is to distill it into an interpretable model such as a decision
tree, which consists of if-then rules and is easy to grasp and be verified.
However, the traditional model distillation is usually a supervised learning
task under a stationary data distribution assumption, which is violated in
reinforcement learning. Therefore, a typical policy distillation that clones
model behaviors with even a small error could bring a data distribution shift,
resulting in an unsatisfied distilled policy model with low fidelity or low
performance. In this paper, we propose to address this issue by changing the
distillation objective from behavior cloning to maximizing an advantage
evaluation. The novel distillation objective maximizes an approximated
cumulative reward and focuses more on disastrous behaviors in critical states,
which controls the data shift effect. We evaluate our method on several Gym
tasks, a commercial fight game, and a self-driving car simulator. The empirical
results show that the proposed method can preserve a higher cumulative reward
than behavior cloning and learn a more consistent policy to the original one.
Moreover, by examining the extracted rules from the distilled decision trees,
we demonstrate that the proposed method delivers reasonable and robust
decisions.
- Abstract(参考訳): 深層強化学習は、難しい意思決定タスクで有望な成果を上げていますが、その成功の主な骨は -- 深層ニューラルネットワークが大半はブラックボックスです。
ブラックボックスモデルに対する洞察を得るための実現可能な方法は、それをif-thenルールで構成され、容易に把握して検証できる決定木のような解釈可能なモデルに蒸留することである。
しかしながら、伝統的なモデル蒸留は、通常、強化学習に違反する定常データ分布仮定の下で教師あり学習タスクである。
したがって、小さなエラーでもモデルの振る舞いをクローンする典型的なポリシー蒸留は、データの分散シフトをもたらす可能性があり、その結果、低い忠実性または低い性能で不満足な蒸留ポリシーモデルが得られる。
本稿では, 蒸留の目的を挙動クローニングから有効性評価の最大化へ変更することで, この問題に対処することを提案する。
新規蒸留目的は、近似累積報酬を最大化し、データシフト効果を制御する臨界状態における悲惨な挙動をより重視する。
本手法は,いくつかのジムタスク,商用戦闘ゲーム,自動運転車シミュレータを用いて評価する。
実験の結果,提案手法は,行動のクローン化よりも高い累積報酬を保存でき,元の手法よりも一貫性のある方針が得られた。
さらに, 蒸留した決定木から抽出した規則を調べることにより, 提案手法が合理的かつ堅牢な決定をもたらすことを示す。
関連論文リスト
- Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。
マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文 参考訳(メタデータ) (2023-07-10T13:29:23Z) - Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。
我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文 参考訳(メタデータ) (2022-08-11T05:08:55Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Black-Box Dissector: Towards Erasing-based Hard-Label Model Stealing
Attack [90.6076825117532]
モデル盗み攻撃は、被害者のターゲットモデルの能力を盗む代替モデルを作ることを目的としている。
既存の手法のほとんどは、最も現実的なシナリオでは利用できない被害者モデルからの完全な確率出力に依存する。
被害者モデルからハードラベルに隠された情報をマイニングするためのCAM駆動の消去戦略を含む,Emphblack-box Dissectorと呼ばれる新しいハードラベルモデルステアリング手法を提案する。
論文 参考訳(メタデータ) (2021-05-03T04:12:31Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Self-Knowledge Distillation with Progressive Refinement of Targets [1.1470070927586016]
プログレッシブ自己知識蒸留(PS-KD)という,単純で効果的な正則化法を提案する。
PS-KDは、訓練中にハードターゲットを柔らかくするために、モデルの知識を徐々に蒸留する。
分析の結果,PS-KDは,試料の分類の難しさに応じて勾配を再スケーリングすることで,硬い試料採掘の効果を示すことがわかった。
論文 参考訳(メタデータ) (2020-06-22T04:06:36Z) - Modeling Survival in model-based Reinforcement Learning [0.0]
この研究は、エージェントの目的が生き残ることの事例を議論することで生存の概念を提示する。
端末状態を避けることを学ぶ報奨関数近似の代用モデルを導入する。
終端状態に注目することは、少数の状態空間として、トレーニングの労力を大幅に削減する。
論文 参考訳(メタデータ) (2020-04-18T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。