論文の概要: Provably Efficient Representation Learning in Low-rank Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2106.11935v1
- Date: Tue, 22 Jun 2021 17:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:04:03.286942
- Title: Provably Efficient Representation Learning in Low-rank Markov Decision
Processes
- Title(参考訳): 低ランクマルコフ決定過程における効率的な表現学習
- Authors: Weitong Zhang and Jiafan He and Dongruo Zhou and Amy Zhang and
Quanquan Gu
- Abstract要約: 低ランクマルコフ決定過程(MDP)の表現学習に関する研究
本稿では,ReLEXと呼ばれる効率の良いアルゴリズムを提案し,その表現を同時に学習し,探索を行う。
- 参考スコア(独自算出の注目度): 78.83808048270306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep reinforcement learning (DRL) is due to the power of
learning a representation that is suitable for the underlying exploration and
exploitation task. However, existing provable reinforcement learning algorithms
with linear function approximation often assume the feature representation is
known and fixed. In order to understand how representation learning can improve
the efficiency of RL, we study representation learning for a class of low-rank
Markov Decision Processes (MDPs) where the transition kernel can be represented
in a bilinear form. We propose a provably efficient algorithm called ReLEX that
can simultaneously learn the representation and perform exploration. We show
that ReLEX always performs no worse than a state-of-the-art algorithm without
representation learning, and will be strictly better in terms of sample
efficiency if the function class of representations enjoys a certain mild
"coverage'' property over the whole state-action space.
- Abstract(参考訳): 深層強化学習(DRL)の成功は、基礎となる探索・搾取作業に適した表現を学習する能力に起因している。
しかし、線形関数近似を持つ既存の証明可能な強化学習アルゴリズムは、しばしば特徴表現が知られ固定されていると仮定される。
表現学習がRLの効率をどのように向上するかを理解するために,遷移カーネルを双線形形式で表現できる低ランクマルコフ決定過程(MDP)のクラスに対する表現学習について検討する。
本稿では,表現を同時に学習し,探索を行うReLEXアルゴリズムを提案する。
我々はReLEXが常に表現学習のない最先端のアルゴリズムよりも悪く、もし表現の関数クラスが状態-作用空間全体にわたってある穏やかな「被覆」特性を享受しているなら、標本効率の点で厳格に優れていることを示す。
関連論文リスト
- Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究
オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。
我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文 参考訳(メタデータ) (2024-03-18T08:50:30Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Representation Learning for Online and Offline RL in Low-rank MDPs [36.398511188102205]
我々は、遷移力学が低ランク遷移行列に対応する低ランクマルコフ決定過程(MDP)に焦点を当てる。
FLAMBEで使用されるのと同じオーラクルで操作するオンライン環境では、RLのためのREP-UCBアッパー信頼境界表現学習アルゴリズムを提案する。
オフラインのRL設定では、ペシミズムを利用して部分被覆条件下で学習するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-10-09T22:04:34Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Graph-based State Representation for Deep Reinforcement Learning [1.5901689240516976]
基礎となるマルコフ決定プロセス(MDP)がグラフを表現しているという事実を利用して、このトポロジ情報を有効状態表現学習に組み込むことができる。
近年のグラフ解析タスクにおけるノード表現の成功により,ノード表現学習手法が深部RLにおける基礎となるMDPのトポロジを効果的にエンコードする能力について検討した。
その結果,すべての埋め込み手法が,グリッドワールド環境の一般的な行列表現よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-29T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。