論文の概要: Optimal Policy Sparsification and Low Rank Decomposition for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.06313v1
- Date: Sun, 10 Mar 2024 21:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:48:56.108536
- Title: Optimal Policy Sparsification and Low Rank Decomposition for Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習のための最適政策スパーシフィケーションと低ランク分解
- Authors: Vikram Goddla
- Abstract要約: 深層強化学習(DRL)は、コンピュータゲームやロボティクスを含む幅広いアプリケーションにおいて大きな可能性を示している。
密度の高いDRLポリシーによる推論は、特にエッジコンピューティングにおける実用的応用を制限する。
本稿では,DRLポリシーをスパース化し,報酬を損なうことなく下位階に分解を促進するために最適空間マップを用いた新しい$L_0$-norm-regularization手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep reinforcement learning(DRL) has shown significant promise in a wide
range of applications including computer games and robotics. Yet, training DRL
policies consume extraordinary computing resources resulting in dense policies
which are prone to overfitting. Moreover, inference with dense DRL policies
limit their practical applications, especially in edge computing. Techniques
such as pruning and singular value decomposition have been used with deep
learning models to achieve sparsification and model compression to limit
overfitting and reduce memory consumption. However, these techniques resulted
in sub-optimal performance with notable decay in rewards. $L_1$ and $L_2$
regularization techniques have been proposed for neural network sparsification
and sparse auto-encoder development, but their implementation in DRL
environments has not been apparent. We propose a novel
$L_0$-norm-regularization technique using an optimal sparsity map to sparsify
DRL policies and promote their decomposition to a lower rank without decay in
rewards. We evaluated our $L_0$-norm-regularization technique across five
different environments (Cartpole-v1, Acrobat-v1, LunarLander-v2,
SuperMarioBros-7.1.v0 and Surgical Robot Learning) using several on-policy and
off-policy algorithms. We demonstrated that the $L_0$-norm-regularized DRL
policy in the SuperMarioBros environment achieved 93% sparsity and gained 70%
compression when subjected to low-rank decomposition, while significantly
outperforming the dense policy. Additionally, the $L_0$-norm-regularized DRL
policy in the Surgical Robot Learning environment achieved a 36% sparsification
and gained 46% compression when decomposed to a lower rank, while being
performant. The results suggest that our custom $L_0$-norm-regularization
technique for sparsification of DRL policies is a promising avenue to reduce
computational resources and limit overfitting.
- Abstract(参考訳): 深層強化学習(DRL)は、コンピュータゲームやロボティクスを含む幅広い応用において有望である。
しかし、DRLポリシーのトレーニングは、過度に適合しがちな密集したポリシーをもたらす特別なコンピューティングリソースを消費する。
さらに、高密度DRLポリシーによる推論は、特にエッジコンピューティングにおける実用的応用を制限する。
プルーニングや特異値分解といった手法は、過度に適合しメモリ消費を減らすために、スペーシフィケーションとモデル圧縮を実現するためにディープラーニングモデルで使われてきた。
しかし、これらの技術は、報酬が著しく減少する副最適性能をもたらした。
L_1$と$L_2$の正規化技術は、ニューラルネットワークのスカラー化とスパースオートエンコーダ開発のために提案されているが、DRL環境での実装は明らかになっていない。
最適スパーシティマップを用いて,drlポリシーをスパーシライズし,その分解を報酬の低下を伴わずに低いランクに促進する,新たな$l_0$-norm-regularization手法を提案する。
我々は,5つの異なる環境(Cartpole-v1, Acrobat-v1, LunarLander-v2, SuperMarioBros-7.1.v0, surgery Robot Learning)を対象に,複数のオンライン・オフラインアルゴリズムを用いて,L_0$-norm-regularization手法を評価した。
我々は,スーパーメリオブロス環境における$L_0$-norm-regularized DRLポリシーが93%の空間性を実現し,低ランク分解条件下では70%の圧縮特性を示した。
さらに,手術ロボット学習環境における$l_0$-norm-regularized drlポリシーは36%のスパーシフィケーションを達成し,低位に分解すると46%の圧縮が得られた。
その結果、DRLポリシーのスペーサー化のためのカスタムな$L_0$-norm-regularization技術は、計算資源の削減とオーバーフィッティングの制限に有望な方法であることが示唆された。
関連論文リスト
- Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - A Benchmark for Low-Switching-Cost Reinforcement Learning [9.569906040234995]
低コストの強化学習は、トレーニング中にポリシースイッチの数を減らしながら、最高の報酬を得ることができる。
スイッチングコストを下げる方法に関する新しい知見を報告する。
このベンチマークが、より実用的な低コストのRLアルゴリズムの開発の出発点になることを期待している。
論文 参考訳(メタデータ) (2021-12-13T05:40:31Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。