論文の概要: Explainable RL Policies by Distilling to Locally-Specialized Linear Policies with Voronoi State Partitioning
- arxiv url: http://arxiv.org/abs/2511.13322v1
- Date: Mon, 17 Nov 2025 12:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.21481
- Title: Explainable RL Policies by Distilling to Locally-Specialized Linear Policies with Voronoi State Partitioning
- Title(参考訳): ボロノイ状態分割による局所特化リニア政策への蒸留による説明可能なRL政策
- Authors: Senne Deproost, Dennis Steckelmacher, Ann Nowé,
- Abstract要約: そこで我々は,状態空間を,単純化された人間の理解可能なモデルが動作可能な領域に分割する,新しいモデルに依存しない手法を提案する。
本稿では,Voronoiパーティショニングを用いて,線形モデルが元のコントロラーと同じような性能が得られる領域を探索する。
- 参考スコア(独自算出の注目度): 5.417332705560665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning is one of the state-of-the-art methods for producing near-optimal system controllers. However, deep RL algorithms train a deep neural network, that lacks transparency, which poses challenges when the controller has to meet regulations, or foster trust. To alleviate this, one could transfer the learned behaviour into a model that is human-readable by design using knowledge distilla- tion. Often this is done with a single model which mimics the original model on average but could struggle in more dynamic situations. A key challenge is that this simpler model should have the right balance be- tween flexibility and complexity or right balance between balance bias and accuracy. We propose a new model-agnostic method to divide the state space into regions where a simplified, human-understandable model can operate in. In this paper, we use Voronoi partitioning to find regions where linear models can achieve similar performance to the original con- troller. We evaluate our approach on a gridworld environment and a classic control task. We observe that our proposed distillation to locally- specialized linear models produces policies that are explainable and show that the distillation matches or even slightly outperforms the black-box policy they are distilled from.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning)は、準最適システムコントローラを製造する最先端の手法の1つである。
しかし、深いRLアルゴリズムは、透明性に欠けるディープニューラルネットワークを訓練する。
これを軽減するために、知識蒸留-オンを用いて設計することで、学習した振る舞いを人間に読まれるモデルに変換することができる。
多くの場合、これは1つのモデルで行われ、これはオリジナルのモデルを平均で模倣するが、よりダイナミックな状況で苦労する可能性がある。
重要な課題は、このシンプルなモデルは、柔軟性と複雑さ、あるいはバランスバイアスと正確性の間の適切なバランスを持つべきだということです。
そこで我々は,状態空間を,単純化された人間の理解可能なモデルが動作可能な領域に分割する,新しいモデルに依存しない手法を提案する。
本稿では,Voronoiパーティショニングを用いて,線形モデルが元のコントロラーと同じような性能が得られる領域を探索する。
グリッドワールド環境と古典的な制御課題に対する我々のアプローチを評価する。
提案した蒸留法は, 局所特化線形モデルに対して, 説明可能な政策を生成し, 蒸留法が蒸留したブラックボックス法よりもわずかに優れていることを示す。
関連論文リスト
- Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Bridging the Model-Reality Gap with Lipschitz Network Adaptation [22.499090318313662]
ロボットが現実世界に進出するにつれ、ロボットは非モデル化された力学と乱れにさらされる。
従来のモデルベースの制御アプローチは、比較的静的で既知の運用環境で成功している。
本稿では,モデルと現実のギャップを埋め,動的不確実性が存在する場合でもモデルに基づくアプローチの適用を可能にする手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T15:12:49Z) - Self-Supervised Hybrid Inference in State-Space Models [0.0]
我々は、潜在空間における非線形高階マルコフ連鎖を許容する状態空間モデルにおいて近似推論を行う。
生成モデルや監督のパラメータ化を、未破損の観測や真理潜伏状態による追加のパラメータ化に頼ってはいない。
カオスロレンツシステムにおいて,完全教師付きアプローチと比較して競合的な結果を得るとともに,変分推論に基づく手法よりも優れることを示す。
論文 参考訳(メタデータ) (2021-07-28T13:26:14Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z) - Model-Free Voltage Regulation of Unbalanced Distribution Network Based
on Surrogate Model and Deep Reinforcement Learning [9.984416150031217]
本稿では,サロゲートモデルと深部強化学習(DRL)に基づくモデルフリーアプローチを開発する。
また、バランスの取れない3段階シナリオに対応するように拡張しました。
論文 参考訳(メタデータ) (2020-06-24T18:49:41Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。