論文の概要: From Parameters to Behavior: Unsupervised Compression of the Policy Space
- arxiv url: http://arxiv.org/abs/2509.22566v1
- Date: Fri, 26 Sep 2025 16:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.593282
- Title: From Parameters to Behavior: Unsupervised Compression of the Policy Space
- Title(参考訳): パラメータから行動へ:政策空間の教師なし圧縮
- Authors: Davide Tenedini, Riccardo Zamboni, Mirco Mutti, Marcello Restelli,
- Abstract要約: 我々は、ポリシーパラメータ空間 $Theta$ を低次元潜在空間 $mathcalZ$ に圧縮する、新しい教師なしのアプローチを開発する。
学習された多様体は、潜時空間$mathcalZ$におけるポリシーグラディエント操作によるタスク固有の適応を可能にする。
- 参考スコア(独自算出の注目度): 45.34282087299665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite its recent successes, Deep Reinforcement Learning (DRL) is notoriously sample-inefficient. We argue that this inefficiency stems from the standard practice of optimizing policies directly in the high-dimensional and highly redundant parameter space $\Theta$. This challenge is greatly compounded in multi-task settings. In this work, we develop a novel, unsupervised approach that compresses the policy parameter space $\Theta$ into a low-dimensional latent space $\mathcal{Z}$. We train a generative model $g:\mathcal{Z}\to\Theta$ by optimizing a behavioral reconstruction loss, which ensures that the latent space is organized by functional similarity rather than proximity in parameterization. We conjecture that the inherent dimensionality of this manifold is a function of the environment's complexity, rather than the size of the policy network. We validate our approach in continuous control domains, showing that the parameterization of standard policy networks can be compressed up to five orders of magnitude while retaining most of its expressivity. As a byproduct, we show that the learned manifold enables task-specific adaptation via Policy Gradient operating in the latent space $\mathcal{Z}$.
- Abstract(参考訳): 近年の成功にもかかわらず、Deep Reinforcement Learning (DRL)はサンプル非効率で知られている。
この非効率性は、高次元かつ高冗長なパラメータ空間$\Theta$でポリシーを直接最適化する標準的な慣行に由来すると我々は主張する。
この課題はマルチタスク設定で大きく複雑になる。
本研究では、ポリシーパラメータ空間 $\Theta$ を低次元潜在空間 $\mathcal{Z}$ に圧縮する新しい教師なしアプローチを開発する。
生成モデル $g:\mathcal{Z}\to\Theta$ を振舞い再構成損失を最適化することにより、パラメータ化の近接よりも関数的類似性によって潜在空間が構成されることを保証する。
この多様体の本質的な次元性は、ポリシーネットワークのサイズではなく、環境の複雑さの関数であると推測する。
提案手法を連続制御領域で検証し,標準ポリシネットワークのパラメータ化を最大5桁まで圧縮できることを示す。
副生成物として、学習多様体は、潜在空間$\mathcal{Z}$におけるポリシーグラディエント演算によるタスク固有適応を可能にすることを示す。
関連論文リスト
- Massively Scaling Explicit Policy-conditioned Value Functions [16.387595437722613]
本稿では,EPVF(Explicit Policy-Conditioned Value Function)のスケーリング戦略を紹介する。
EPVFは、ポリシーパラメータに明示的に条件付けされた値関数 V(theta) を学習し、任意のポリシーパラメータを直接勾配ベースの更新を可能にする。
EPVFは、カスタムAnt環境のような複雑なタスクを解くためにスケールでき、最先端のDeep Reinforcement Learning(DRL)ベースラインと競合することができる。
論文 参考訳(メタデータ) (2025-02-17T16:02:54Z) - Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Sample Complexity of Neural Policy Mirror Descent for Policy
Optimization on Low-Dimensional Manifolds [75.51968172401394]
深部畳み込みニューラルネットワーク(CNN)を用いたNPMDアルゴリズムのサンプル複雑性について検討した。
NPMDの各イテレーションでは、値関数とポリシーの両方をCNNによってうまく近似することができる。
NPMDは状態空間の低次元構造を利用して次元の呪いから逃れることができることを示す。
論文 参考訳(メタデータ) (2023-09-25T07:31:22Z) - Reward-Free Policy Space Compression for Reinforcement Learning [39.04317877999891]
強化学習では,環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーにエンコードする。
我々は、政策空間の報酬のない圧縮を、代表政策の有限集合に求めている。
政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。
論文 参考訳(メタデータ) (2022-02-22T18:11:57Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。