論文の概要: Frustratingly Easy Regularization on Representation Can Boost Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.14557v2
- Date: Sun, 23 Apr 2023 08:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 00:25:51.480765
- Title: Frustratingly Easy Regularization on Representation Can Boost Deep
Reinforcement Learning
- Title(参考訳): 表現の容易な正規化は、深層強化学習を促進する
- Authors: Qiang He, Huangyuan Su, Jieyu Zhang, Xinwen Hou
- Abstract要約: そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。
本稿では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,表現の簡易正規化によるポリシー評価を提案する。
PEERはPyBulletの4つの環境での最先端のパフォーマンス、DMControlの12タスク中9、Atariの26ゲーム中19タスクを実現している。
- 参考スコア(独自算出の注目度): 9.072416458330268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) gives the promise that an agent learns good
policy from high-dimensional information, whereas representation learning
removes irrelevant and redundant information and retains pertinent information.
In this work, we demonstrate that the learned representation of the $Q$-network
and its target $Q$-network should, in theory, satisfy a favorable
distinguishable representation property. Specifically, there exists an upper
bound on the representation similarity of the value functions of two adjacent
time steps in a typical DRL setting. However, through illustrative experiments,
we show that the learned DRL agent may violate this property and lead to a
sub-optimal policy. Therefore, we propose a simple yet effective regularizer
called Policy Evaluation with Easy Regularization on Representation (PEER),
which aims to maintain the distinguishable representation property via explicit
regularization on internal representations. And we provide the convergence rate
guarantee of PEER. Implementing PEER requires only one line of code. Our
experiments demonstrate that incorporating PEER into DRL can significantly
improve performance and sample efficiency. Comprehensive experiments show that
PEER achieves state-of-the-art performance on all 4 environments on PyBullet, 9
out of 12 tasks on DMControl, and 19 out of 26 games on Atari. To the best of
our knowledge, PEER is the first work to study the inherent representation
property of Q-network and its target. Our code is available at
https://sites.google.com/view/peer-cvpr2023/.
- Abstract(参考訳): 深層強化学習(DRL)は、エージェントが高次元情報から適切なポリシーを学ぶことを約束する一方、表現学習は無関係で冗長な情報を取り除き、関連する情報を保持する。
そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。
具体的には、典型的なDRL設定において、隣接する2つの時間ステップの値関数の表現類似性に上限が存在する。
しかし、実証実験により、学習したDRLエージェントがこの性質に反し、準最適政策につながる可能性があることを示す。
そこで本研究では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,PEER(Policy Evaluation with Easy Regularization on Representation)を提案する。
そして、PEERの収束率保証を提供する。
PEERの実装には1行のコードしか必要ない。
実験により,PEERをDRLに組み込むことで,性能と試料効率を大幅に向上できることが示された。
総合実験の結果,PEERはPyBulletの4つの環境すべてで,DMControlの12タスク中9タスク,Atariの26ゲーム中19タスクで最先端のパフォーマンスを達成した。
我々の知る限りでは、PEERはQ-networkの本質的な表現特性とそのターゲットを研究する最初の研究である。
私たちのコードはhttps://sites.google.com/view/peer-cvpr2023/で利用可能です。
関連論文リスト
- Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Useful Policy Invariant Shaping from Arbitrary Advice [24.59807772487328]
RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
論文 参考訳(メタデータ) (2020-11-02T20:29:09Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。