論文の概要: Representation Gap in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.14557v1
- Date: Sun, 29 May 2022 02:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:12:50.201756
- Title: Representation Gap in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における表現ギャップ
- Authors: Qiang He, Huangyuan Su, Jieyu Zhang, Xinwen Hou
- Abstract要約: 表現学習は無関係で冗長な情報を排除し、関連する情報を保持する。
本稿では,アクション値関数の表現能力について考察し,その特性,テクスト表現ギャップ,目的のアクション値関数について理論的に明らかにする。
表現ギャップを活性化するために,下線修正下線表現下線(POPRO)から下線表現下線を最適化する,シンプルだが効果的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.072416458330268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning gives the promise that an agent learns good
policy from high-dimensional information. Whereas representation learning
removes irrelevant and redundant information and retains pertinent information.
We consider the representation capacity of action value function and
theoretically reveal its inherent property, \textit{representation gap} with
its target action value function. This representation gap is favorable.
However, through illustrative experiments, we show that the representation of
action value function grows similarly compared with its target value function,
i.e. the undesirable inactivity of the representation gap
(\textit{representation overlap}). Representation overlap results in a loss of
representation capacity, which further leads to sub-optimal learning
performance. To activate the representation gap, we propose a simple but
effective framework \underline{P}olicy \underline{O}ptimization from
\underline{P}reventing \underline{R}epresentation \underline{O}verlaps (POPRO),
which regularizes the policy evaluation phase through differing the
representation of action value function from its target. We also provide the
convergence rate guarantee of POPRO. We evaluate POPRO on gym continuous
control suites. The empirical results show that POPRO using pixel inputs
outperforms or parallels the sample-efficiency of methods that use state-based
features.
- Abstract(参考訳): 深い強化学習は、エージェントが高次元情報から良いポリシーを学ぶことを約束する。
表現学習は無関係で冗長な情報を取り除き、関連する情報を保持する。
我々は、作用値関数の表現能力を検討し、その固有性質である \textit{representation gap} とその対象作用値関数を理論的に明らかにする。
この表現のギャップは好ましい。
しかし,実演実験により,その対象値関数,すなわち表現ギャップの望ましくない不活性値(\textit{representation overlap})と比較して,作用値関数の表現が同様に大きくなることを示す。
表現の重複は表現能力の喪失につながり、さらに最適化された学習性能をもたらす。
表現ギャップを活性化するために,本論文では,行動値関数の表現を目標から切り離すことで,政策評価フェーズを規則化する,シンプルで効果的なフレームワークである「アンダーライン{P}olicy \underline{O}ptimization from \underline{P}reventing \underline{R}epresentation \underline{O}verlaps (POPRO)を提案する。
また,poproの収束率保証を提供する。
体育連続制御スイートにおけるPOPROの評価を行った。
実験の結果, 画素入力を用いたPOPROは, 状態ベース特徴を用いた手法のサンプル効率よりも優れ, あるいは並列であることがわかった。
関連論文リスト
- Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Useful Policy Invariant Shaping from Arbitrary Advice [24.59807772487328]
RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
論文 参考訳(メタデータ) (2020-11-02T20:29:09Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。