論文の概要: Critic-Driven Voronoi-Quantization for Distilling Deep RL Policies to Explainable Models
- arxiv url: http://arxiv.org/abs/2605.14897v1
- Date: Thu, 14 May 2026 14:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.881853
- Title: Critic-Driven Voronoi-Quantization for Distilling Deep RL Policies to Explainable Models
- Title(参考訳): 説明可能なモデルへの深部RLの蒸留のための批判駆動型ボロノイ量子化
- Authors: Senne Deproost, Denis Steckelmacher, Ann Nowé,
- Abstract要約: 批判駆動型ボロノイ状態分割法(Critical-Driven Voronoi State Partitioning)と呼ばれる新しいモデルに依存しない手法を提案する。
原方針の批判的価値ネットワークを活用することで、我々は、価値の低い地域において、新しいサブポリスを導入する。
いくつかのよく知られたベンチマークにアプローチを検証し、この蒸留が線形関数の合理的な大きさの集合を用いて元の方針に近づくことを証明した。
- 参考スコア(独自算出の注目度): 5.417332705560665
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite many successful attempts at explaining Deep Reinforcement Learning policies using distillation, it remains difficult to balance the performance-interpretability trade-off and select a fitting surrogate model. In addition to this, traditional distillation only minimizes the distance between the behavior of the original and the surrogate policy while other RL-specific components such as action value are disregarded. To solve this, we introduce a new model-agnostic method called Critic-Driven Voronoi State Partitioning, which partitions a black box control policy into regions where a simple class of model can be optimized using gradient descent. By exploiting the critic value network of the original policy, we iteratively introduce new subpolicies in regions with insufficient value, standing in for a measure of policy complexity. The partitioning, a Voronoi quantizer, uses nearest neighbor lookups to assign a linear function to each point in the state space resulting in a cell-like diagram. We validate our approach on several well known benchmarks and proof that this distillation approaches the original policy using a reasonable sized set of linear functions.
- Abstract(参考訳): 蒸留を用いた深層強化学習政策の説明に多くの試みが成功したが、性能・解釈可能性トレードオフのバランスをとることは困難であり、適切な代理モデルを選択することは困難である。
これに加えて、伝統的な蒸留法は原産地の挙動と代理政策の間の距離を最小化するだけであり、一方でアクション値などの他のRL固有の成分は無視される。
そこで本研究では,ブラックボックス制御ポリシを,勾配勾配勾配を用いてモデルクラスを最適化可能な領域に分割する,Critic-Driven Voronoi State Partitioningという,モデルに依存しない新しい手法を提案する。
原政策の批判価値ネットワークを活用することで、政策複雑性の指標として、価値の不十分な地域において、新たなサブポリスを反復的に導入する。
パーティショニング、すなわちボロノイ量子化器は、近傍のルックアップを使って状態空間の各点に線形関数を割り当て、セルライクな図形を作る。
いくつかのよく知られたベンチマークにアプローチを検証し、この蒸留が線形関数の合理的な大きさの集合を用いて元の方針に近づくことを証明した。
関連論文リスト
- A Single Deep Preference-Conditioned Policy for Learning Pareto Coverage Sets [0.4369550829556578]
非線形スカラー化下での優先-解決対応の特異性と連続性について検討した。
この問題を解決するために,スムーズなTchebycheffスカラー化を単調な効用として用いた。
各更新は、以前のポリシーを参考に、Kullback-Leibler-regularized MDPの解決と等価であることを示す。
論文 参考訳(メタデータ) (2026-05-09T13:35:50Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Explainable RL Policies by Distilling to Locally-Specialized Linear Policies with Voronoi State Partitioning [5.417332705560665]
そこで我々は,状態空間を,単純化された人間の理解可能なモデルが動作可能な領域に分割する,新しいモデルに依存しない手法を提案する。
本稿では,Voronoiパーティショニングを用いて,線形モデルが元のコントロラーと同じような性能が得られる領域を探索する。
論文 参考訳(メタデータ) (2025-11-17T12:58:38Z) - Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning [27.868175900131313]
強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。
本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。
我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
論文 参考訳(メタデータ) (2025-01-08T23:22:08Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Neural-to-Tree Policy Distillation with Policy Improvement Criterion [28.262400646275793]
ブラックボックスモデルに対する洞察を得るための可能な方法は、決定木のような解釈可能なモデルにそれを蒸留することである。
モデル動作を小さなエラーでもクローンする典型的なポリシー蒸留は、データ分散シフトをもたらす可能性がある。
本稿では, 蒸留の目的を挙動クローニングから有効性評価の最大化に転換することで, この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-08-16T05:14:54Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。