論文の概要: Fidelity-Induced Interpretable Policy Extraction for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2309.06097v1
- Date: Tue, 12 Sep 2023 10:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 13:41:45.582049
- Title: Fidelity-Induced Interpretable Policy Extraction for Reinforcement
Learning
- Title(参考訳): 強化学習のための忠実度による解釈可能なポリシー抽出
- Authors: Xiao Liu, Wubing Chen, Mao Tan
- Abstract要約: 深層強化学習(DRL)は、逐次意思決定問題において顕著な成功を収めた。
既存のDRLエージェントは不透明な方法で決定を下し、ユーザはエージェントの信頼性を確立し、弱点を精査するのを妨げる。
フィデリティ誘導政策抽出(FIPE)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 6.622746736005175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DRL) has achieved remarkable success in
sequential decision-making problems. However, existing DRL agents make
decisions in an opaque fashion, hindering the user from establishing trust and
scrutinizing weaknesses of the agents. While recent research has developed
Interpretable Policy Extraction (IPE) methods for explaining how an agent takes
actions, their explanations are often inconsistent with the agent's behavior
and thus, frequently fail to explain. To tackle this issue, we propose a novel
method, Fidelity-Induced Policy Extraction (FIPE). Specifically, we start by
analyzing the optimization mechanism of existing IPE methods, elaborating on
the issue of ignoring consistency while increasing cumulative rewards. We then
design a fidelity-induced mechanism by integrate a fidelity measurement into
the reinforcement learning feedback. We conduct experiments in the complex
control environment of StarCraft II, an arena typically avoided by current IPE
methods. The experiment results demonstrate that FIPE outperforms the baselines
in terms of interaction performance and consistency, meanwhile easy to
understand.
- Abstract(参考訳): 深層強化学習(DRL)は、逐次意思決定問題において顕著な成功を収めた。
しかし、既存のDRLエージェントは不透明な方法で決定を下し、ユーザはエージェントの信頼性を確立し、弱点を精査するのを妨げる。
近年の研究では、エージェントがどのように行動を取るかを説明するための解釈可能なポリシー抽出(ipe)手法が開発されているが、その説明はしばしばエージェントの行動と一致せず、しばしば説明に失敗している。
この問題に取り組むために,忠実性誘導政策抽出(fipe)という新しい手法を提案する。
具体的には,既存のipp法の最適化機構を解析し,累積報酬を増加させながら一貫性を無視する問題を明らかにする。
次に,強化学習フィードバックに忠実度測定を統合することで忠実度誘導機構を設計する。
我々は,現在のipp法で一般的に回避されるstarcraft iiの複雑な制御環境で実験を行う。
実験の結果、FIPEは相互作用性能と一貫性の点でベースラインよりも優れており、理解し易いことがわかった。
関連論文リスト
- On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。
本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文 参考訳(メタデータ) (2024-11-22T16:31:36Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文 参考訳(メタデータ) (2024-08-19T09:39:01Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Reinforcement Learning Your Way: Agent Characterization through Policy
Regularization [0.0]
目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。
本手法は,学習中のエージェントの動作を誘導し,本質的な特徴付けを行う。
今後の課題として、個人金融顧客の投資ポートフォリオを、支出個性に基づいて最適化するエージェントを開発することを目的としている。
論文 参考訳(メタデータ) (2022-01-21T08:18:38Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。