論文の概要: Hierarchical Support Vector State Partitioning for Distilling Black Box Reinforcement Learning Policies
- arxiv url: http://arxiv.org/abs/2605.04254v1
- Date: Tue, 05 May 2026 19:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.519163
- Title: Hierarchical Support Vector State Partitioning for Distilling Black Box Reinforcement Learning Policies
- Title(参考訳): ブラックボックス強化学習法における階層的支援ベクトル状態分割
- Authors: Senne Deproost, Mehrdad Asadi, Ann Nowé,
- Abstract要約: 我々は,ブラックボックス強化学習ポリシーを模倣する新しい手法であるSVSP(State Vector Space Partitioning)を紹介する。
我々の手法は、以前の批評家による状態分割の試みよりも平均戻り率を+7.4%向上させる。
- 参考スコア(独自算出の注目度): 5.9334858973020355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce State Vector Space Partitioning (SVSP), a novel method to mimic a black box reinforcement learning policy using a set of human-interpretable subpolicies. By partitioning a distillation dataset of state action pairs with linear support vector machine splits, SVSP constructs a compact and structured representation of the original policy. Our method improves mean return by +7.4\% over previous critic driven state partitioning attempts such as Voronoi State Partitioning (VSP) and +2.8\% over the original TD3 policy, while reducing the number of required subpolicies against VSP by 82.1\%. Our results pave the path towards a more flexible form of distillation where both the decision boundary and surrogate models can be chosen within a margin of the original black box behavior.
- Abstract(参考訳): 本研究では,人間の解釈可能なサブポリティシの集合を用いて,ブラックボックス強化学習ポリシーを模倣する新しい手法として,SVSP(State Vector Space Partitioning)を紹介する。
線形支持ベクトルマシン分割による状態作用対の蒸留データセットを分割することにより、SVSPは元のポリシーのコンパクトで構造化された表現を構築する。
我々の手法は、Voronoi State Partitioning (VSP) のような以前の批判駆動状態分割の試みよりも平均値が+7.4\%、オリジナルのTD3ポリシーよりも+2.8\%向上し、VSPに対する必要な行政の数を82.1\%削減する。
以上の結果から, 決定境界モデルとサロゲートモデルの両方が, 元のブラックボックスの挙動の限界内で選択できる, より柔軟な蒸留方式への道筋をたどることができた。
関連論文リスト
- Model-free policy gradient for discrete-time mean-field control [1.1470070927586018]
本研究では,有限状態空間とコンパクトな行動空間を持つ平均場制御問題に対するモデル自由政策学習について検討する。
我々は,MFCのモデルフリーポリシー勾配アルゴリズムであるMF-REINFORCEを開発し,そのバイアスと平均二乗誤差に明確な定量的境界を確立する。
論文 参考訳(メタデータ) (2026-01-16T11:49:25Z) - Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning [3.2580743227673694]
高忠実性アプローチでは、ネストしたベイズ反転と設計ループの中で、繰り返し前方および随伴したPDEが解かれる。
我々は、SBOEDを有限水平マルコフ決定プロセスとして定式化し、ポリシー段階の強化学習を通じて、償却設計ポリシーを学習する。
汚染源追跡のための逐次マルチセンサ配置に関する数値実験は、高忠実度有限要素法よりも約100倍のスピードアップを示す。
論文 参考訳(メタデータ) (2026-01-09T15:44:49Z) - Complexity Reduction Study Based on RD Costs Approximation for VVC Intra Partitioning [1.190427345303959]
2つの機械学習技術が提案され、比較されている。
提案手法はサイズに依存しず,隣接するブロックのレート・ディストーション(RD)コストを入力特徴として組み込む。
論文 参考訳(メタデータ) (2025-11-25T14:25:57Z) - Multi-Task Vehicle Routing Solver via Mixture of Specialized Experts under State-Decomposable MDP [57.28979643999352]
本稿では,VRPの変種間で共有成分の性質を認識可能な統合解法フレームワークを提案する。
状態空間を基底状態空間のカルテアン積として表現することにより、VRPを再構成する状態分解型MDP(SDMDP)を導入する。
The Latent Space-based SDMDP extension is developed by the both the optimal basis policy and a learnable mix function。
論文 参考訳(メタデータ) (2025-10-24T13:31:31Z) - Revisiting Continual Semantic Segmentation with Pre-trained Vision Models [53.56065605992639]
連続セマンティック(CSS)は、それまで遭遇したクラスについての知識を保持しながら、新しいクラスを段階的に分割することを目指している。
CSSの最近の進歩は、事前訓練されたビジョンモデル(PVM)をバックボーンとして採用することで推進されている。
既存の戦略の中で、クラス間でモデルを逐次微調整するDirect Fine-Tuning (DFT)が最も単純なアプローチである。
論文 参考訳(メタデータ) (2025-08-06T09:51:46Z) - Enhancing Blind Source Separation with Dissociative Principal Component Analysis [0.0]
疎主成分分析(sPCA)は、負荷ベクトル(LV)に間隔制約を課すことにより主成分(PC)の解釈可能性を高める
この制限を克服するために、sPCAの解釈可能性の優位性を保ちながら、ソース抽出能力を著しく向上する洗練されたアプローチを提案する。
このアルゴリズムは2つのアルゴリズムからなる: 解離型PCA (DPCA1 と DPCA2)。
論文 参考訳(メタデータ) (2024-11-19T08:24:01Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Neural Vector Fields: Generalizing Distance Vector Fields by Codebooks
and Zero-Curl Regularization [73.3605319281966]
メッシュと暗黙的符号なし距離関数(UDF)を演算する明示的な学習プロセスを採用した新しい3D表現であるNeural Vector Fields (NVF)を提案する。
両NVFを水密化・非水密化・非水密化・非水密化・非水密化・非水密化・非水密化・非水密化・非水密化・クロスドメイン化の4つのシナリオで評価した。
論文 参考訳(メタデータ) (2023-09-04T10:42:56Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Reinforcement Learning for POMDP: Partitioned Rollout and Policy
Iteration with Application to Autonomous Sequential Repair Problems [2.6389022766562236]
有限状態と制御空間を持つ動的プログラミング問題と部分状態観測について考察する。
本稿では,マルチステップのルックアヘッド,既知の基本方針付きロールアウト,端末コスト関数近似を用いたアルゴリズムについて論じる。
論文 参考訳(メタデータ) (2020-02-11T02:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。