論文の概要: Policy Distillation with Selective Input Gradient Regularization for
Efficient Interpretability
- arxiv url: http://arxiv.org/abs/2205.08685v1
- Date: Wed, 18 May 2022 01:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 12:12:28.437217
- Title: Policy Distillation with Selective Input Gradient Regularization for
Efficient Interpretability
- Title(参考訳): 効率的な解釈のための選択的入力勾配規則化による政策蒸留
- Authors: Jinwei Xing, Takashi Nagata, Xinyun Zou, Emre Neftci, Jeffrey L.
Krichmar
- Abstract要約: サージェンシマップはディープニューラルネットワークの解釈可能性を提供するために頻繁に使用される。
既存のサリエンシマップアプローチは計算コストがかかるか、現実のシナリオのリアルタイム要件を満たすことができない。
本稿では, 政策蒸留と入力勾配正規化を併用した選択的な入力勾配正規化(DIGR)による蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 6.037276428689637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep Reinforcement Learning (RL) has proven successful in a wide
range of tasks, one challenge it faces is interpretability when applied to
real-world problems. Saliency maps are frequently used to provide
interpretability for deep neural networks. However, in the RL domain, existing
saliency map approaches are either computationally expensive and thus cannot
satisfy the real-time requirement of real-world scenarios or cannot produce
interpretable saliency maps for RL policies. In this work, we propose an
approach of Distillation with selective Input Gradient Regularization (DIGR)
which uses policy distillation and input gradient regularization to produce new
policies that achieve both high interpretability and computation efficiency in
generating saliency maps. Our approach is also found to improve the robustness
of RL policies to multiple adversarial attacks. We conduct experiments on three
tasks, MiniGrid (Fetch Object), Atari (Breakout) and CARLA Autonomous Driving,
to demonstrate the importance and effectiveness of our approach.
- Abstract(参考訳): 深層強化学習(Reinforcement Learning, RL)は幅広いタスクで成功したが、現実の問題に適用する際の解釈可能性に直面する課題がある。
真性マップはディープニューラルネットワークの解釈性を提供するために頻繁に使用される。
しかし、RL領域では、既存のサリエンシマップアプローチは計算コストが高く、現実世界のシナリオのリアルタイム要件を満たすことができないか、RLポリシーの解釈可能なサリエンシマップを作成することができない。
本研究では, 政策蒸留と入力勾配正規化を併用し, 塩分マップ生成における高い解釈性と計算効率を両立させる新しい政策を創出する, 選択的な入力勾配正規化(DIGR)による蒸留手法を提案する。
また,複数の敵攻撃に対するRLポリシーの堅牢性も向上することが示唆された。
我々は,MiniGrid(Fetch Object),Atari(Breakout),CARLA(Autonomous Driving)という3つのタスクで実験を行い,アプローチの重要性と有効性を示す。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。