論文の概要: Massively Scaling Explicit Policy-conditioned Value Functions
- arxiv url: http://arxiv.org/abs/2502.11949v1
- Date: Mon, 17 Feb 2025 16:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:28.692740
- Title: Massively Scaling Explicit Policy-conditioned Value Functions
- Title(参考訳): 明示的なポリシー条件付き値関数の大規模スケーリング
- Authors: Nico Bohlinger, Jan Peters,
- Abstract要約: 本稿では,EPVF(Explicit Policy-Conditioned Value Function)のスケーリング戦略を紹介する。
EPVFは、ポリシーパラメータに明示的に条件付けされた値関数 V(theta) を学習し、任意のポリシーパラメータを直接勾配ベースの更新を可能にする。
EPVFは、カスタムAnt環境のような複雑なタスクを解くためにスケールでき、最先端のDeep Reinforcement Learning(DRL)ベースラインと競合することができる。
- 参考スコア(独自算出の注目度): 16.387595437722613
- License:
- Abstract: We introduce a scaling strategy for Explicit Policy-Conditioned Value Functions (EPVFs) that significantly improves performance on challenging continuous-control tasks. EPVFs learn a value function V({\theta}) that is explicitly conditioned on the policy parameters, enabling direct gradient-based updates to the parameters of any policy. However, EPVFs at scale struggle with unrestricted parameter growth and efficient exploration in the policy parameter space. To address these issues, we utilize massive parallelization with GPU-based simulators, big batch sizes, weight clipping and scaled peturbations. Our results show that EPVFs can be scaled to solve complex tasks, such as a custom Ant environment, and can compete with state-of-the-art Deep Reinforcement Learning (DRL) baselines like Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC). We further explore action-based policy parameter representations from previous work and specialized neural network architectures to efficiently handle weight-space features, which have not been used in the context of DRL before.
- Abstract(参考訳): 本稿では,EPVF(Explicit Policy-Conditioned Value Function)のスケーリング戦略を紹介する。
EPVF は、ポリシーパラメータに明示的に条件付けされた値関数 V({\theta}) を学習し、任意のポリシーパラメータの勾配に基づく直接更新を可能にする。
しかし、大規模なEVVFは、未制限パラメータ成長と政策パラメータ空間の効率的な探索に苦慮している。
これらの問題に対処するために、GPUベースのシミュレータ、大きなバッチサイズ、重量切り抜き、スケールしたペチュベーションを用いた大規模な並列化を利用する。
以上の結果から,EPVFはカスタムAnt環境などの複雑なタスクにスケールでき,PPO(Proximal Policy Optimization)やSAC(Soft Actor-Critic)といった最先端のDeep Reinforcement Learning(DRL)ベースラインと競合する可能性が示唆された。
さらに、従来のDRLの文脈では使われていなかった重み空間の特徴を効率的に扱うために、アクションベースのポリシーパラメータ表現や、ニューラルネットワークアーキテクチャの特殊化についても検討する。
関連論文リスト
- Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - SAPG: Split and Aggregate Policy Gradients [37.433915947580076]
本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。
我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:50Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Safe Policy Improvement for POMDPs via Finite-State Controllers [6.022036788651133]
部分的に観測可能なマルコフ決定プロセス(POMDP)のための安全政策改善(SPI)について検討する。
SPIメソッドは、モデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
論文 参考訳(メタデータ) (2023-01-12T11:22:54Z) - Improved Policy Optimization for Online Imitation Learning [17.450401609682544]
オンライン模倣学習(OIL)では,環境との活発な相互作用を通じて専門家の行動を模倣する政策を見出すことが課題である。
論文 参考訳(メタデータ) (2022-07-29T22:02:14Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。