論文の概要: Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL
- arxiv url: http://arxiv.org/abs/2106.11935v2
- Date: Wed, 14 Feb 2024 07:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 20:43:32.649392
- Title: Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL
- Title(参考訳): 低ランクマルコフ決定過程における効率的な表現選択:オンラインからオフラインRLへ
- Authors: Weitong Zhang and Jiafan He and Dongruo Zhou and Amy Zhang and
Quanquan Gu
- Abstract要約: オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。
Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
- 参考スコア(独自算出の注目度): 84.14947307790361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep reinforcement learning (DRL) lies in its ability to learn
a representation that is well-suited for the exploration and exploitation task.
To understand how the choice of representation can improve the efficiency of
reinforcement learning (RL), we study representation selection for a class of
low-rank Markov Decision Processes (MDPs) where the transition kernel can be
represented in a bilinear form. We propose an efficient algorithm, called
ReLEX, for representation learning in both online and offline RL. Specifically,
we show that the online version of ReLEX, called ReLEX-UCB, always performs no
worse than the state-of-the-art algorithm without representation selection, and
achieves a strictly better constant regret if the representation function class
has a "coverage" property over the entire state-action space. For the offline
counterpart, ReLEX-LCB, we show that the algorithm can find the optimal policy
if the representation class can cover the state-action space and achieves
gap-dependent sample complexity. This is the first result with constant sample
complexity for representation learning in offline RL.
- Abstract(参考訳): 深層強化学習(DRL)の成功は、探索と搾取作業に適した表現を学ぶ能力にある。
表現の選択が強化学習(RL)の効率をどのように向上させるかを理解するため,遷移カーネルを双線形形式で表現できる低ランクマルコフ決定過程(MDP)の表現選択について検討した。
オンラインとオフラインの両方で表現学習を行うための効率的なアルゴリズムであるReLEXを提案する。
具体的には、ReLEXのオンライン版であるReLEX-UCBは、表現選択なしで、常に最先端のアルゴリズムよりも悪く動作し、表現関数クラスが状態-アクション空間全体にわたって"カバレッジ"プロパティを持つ場合、常に後悔することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーし、ギャップ依存的なサンプル複雑性を実現することができれば、アルゴリズムが最適なポリシーを見つけることができることを示す。
これはオフラインrlでの表現学習のためのサンプルの複雑さが一定である最初の結果である。
関連論文リスト
- Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究
オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。
我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文 参考訳(メタデータ) (2024-03-18T08:50:30Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Representation Learning for Online and Offline RL in Low-rank MDPs [36.398511188102205]
我々は、遷移力学が低ランク遷移行列に対応する低ランクマルコフ決定過程(MDP)に焦点を当てる。
FLAMBEで使用されるのと同じオーラクルで操作するオンライン環境では、RLのためのREP-UCBアッパー信頼境界表現学習アルゴリズムを提案する。
オフラインのRL設定では、ペシミズムを利用して部分被覆条件下で学習するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-10-09T22:04:34Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Graph-based State Representation for Deep Reinforcement Learning [1.5901689240516976]
基礎となるマルコフ決定プロセス(MDP)がグラフを表現しているという事実を利用して、このトポロジ情報を有効状態表現学習に組み込むことができる。
近年のグラフ解析タスクにおけるノード表現の成功により,ノード表現学習手法が深部RLにおける基礎となるMDPのトポロジを効果的にエンコードする能力について検討した。
その結果,すべての埋め込み手法が,グリッドワールド環境の一般的な行列表現よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-29T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。