論文の概要: "So, Tell Me About Your Policy...": Distillation of interpretable policies from Deep Reinforcement Learning agents
- arxiv url: http://arxiv.org/abs/2507.07848v1
- Date: Thu, 10 Jul 2025 15:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.460876
- Title: "So, Tell Me About Your Policy...": Distillation of interpretable policies from Deep Reinforcement Learning agents
- Title(参考訳): 「そう、あなたの政策について教えてください...」:深層強化学習エージェントによる解釈可能な政策の蒸留
- Authors: Giovanni Dispoto, Paolo Bonetti, Marcello Restelli,
- Abstract要約: 本稿では,専門家の行動の特異性を無視することなく,解釈可能なポリシーを抽出できる新しいアルゴリズムを提案する。
従来の研究とは対照的に,これまでに収集した経験を活かした解釈可能な政策の訓練が可能となった。
提案アルゴリズムは古典的な制御環境と金融取引シナリオで実証的に評価される。
- 参考スコア(独自算出の注目度): 37.18643811339418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Reinforcement Learning (RL) largely benefit from the inclusion of Deep Neural Networks, boosting the number of novel approaches proposed in the field of Deep Reinforcement Learning (DRL). These techniques demonstrate the ability to tackle complex games such as Atari, Go, and other real-world applications, including financial trading. Nevertheless, a significant challenge emerges from the lack of interpretability, particularly when attempting to comprehend the underlying patterns learned, the relative importance of the state features, and how they are integrated to generate the policy's output. For this reason, in mission-critical and real-world settings, it is often preferred to deploy a simpler and more interpretable algorithm, although at the cost of performance. In this paper, we propose a novel algorithm, supported by theoretical guarantees, that can extract an interpretable policy (e.g., a linear policy) without disregarding the peculiarities of expert behavior. This result is obtained by considering the advantage function, which includes information about why an action is superior to the others. In contrast to previous works, our approach enables the training of an interpretable policy using previously collected experience. The proposed algorithm is empirically evaluated on classic control environments and on a financial trading scenario, demonstrating its ability to extract meaningful information from complex expert policies.
- Abstract(参考訳): 近年の強化学習(RL)の進歩は、ディープニューラルネットワークの導入による大きな恩恵を受けており、ディープ強化学習(DRL)分野において提案される新しいアプローチの数を増やしている。
これらのテクニックは、AtariやGoといった複雑なゲームや、金融取引を含む現実世界のアプリケーションに取り組む能力を示している。
それにもかかわらず、解釈可能性の欠如、特に学習したパターンの理解、状態特徴の相対的重要性、そしてそれらが政策の出力を生成するためにどのように統合されているかを考えると、大きな課題が生じる。
このため、ミッションクリティカルで現実的な設定では、パフォーマンスの犠牲はあるものの、よりシンプルで解釈可能なアルゴリズムをデプロイするのが望ましい。
本稿では,専門家の振る舞いの特異性を無視せずに解釈可能なポリシー(例えば線形ポリシー)を抽出できる,理論的保証に支えられた新しいアルゴリズムを提案する。
この結果は、アクションが他よりも優れている理由に関する情報を含む利点関数を考慮して得られる。
従来の研究とは対照的に,これまでに収集した経験を活かした解釈可能な政策の訓練が可能となった。
提案アルゴリズムは,古典的な制御環境と金融取引シナリオで実証的に評価し,複雑な専門家ポリシーから有意義な情報を抽出できることを実証する。
関連論文リスト
- From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation [2.08099858257632]
本稿では,複雑な深いRLポリシーを透過的な表現に変換するためのモデルに依存しない新しいアプローチを提案する。
提案手法を既存の3つの深部RLアルゴリズムを用いて評価し,その性能を2つの古典的制御環境で検証した。
論文 参考訳(メタデータ) (2025-01-16T22:11:03Z) - Amortized nonmyopic active search via deep imitation learning [16.037812098340343]
アクティブ検索は、希少で価値のあるクラスのメンバを集めることを目標とする、特別なアクティブな学習環境を形式化する。
本稿では,ニューラルネットワークをトレーニングして検索学習を行うことにより,このポリシーの償却について検討する。
我々のネットワークは、合成データに基づいて訓練され、非神秘的な決定をもたらす有益な探索戦略を学習する。
論文 参考訳(メタデータ) (2024-05-23T20:10:29Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。