論文の概要: Flow to Control: Offline Reinforcement Learning with Lossless Primitive
Discovery
- arxiv url: http://arxiv.org/abs/2212.01105v1
- Date: Fri, 2 Dec 2022 11:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:04:34.467127
- Title: Flow to Control: Offline Reinforcement Learning with Lossless Primitive
Discovery
- Title(参考訳): flow to control:lossless primitive discoveryによるオフライン強化学習
- Authors: Yiqin Yang, Hao Hu, Wenzhe Li, Siyuan Li, Jun Yang, Qianchuan Zhao,
Chongjie Zhang
- Abstract要約: オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。
提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 31.49638957903016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) enables the agent to effectively learn
from logged data, which significantly extends the applicability of RL
algorithms in real-world scenarios where exploration can be expensive or
unsafe. Previous works have shown that extracting primitive skills from the
recurring and temporally extended structures in the logged data yields better
learning. However, these methods suffer greatly when the primitives have
limited representation ability to recover the original policy space, especially
in offline settings. In this paper, we give a quantitative characterization of
the performance of offline hierarchical learning and highlight the importance
of learning lossless primitives. To this end, we propose to use a
\emph{flow}-based structure as the representation for low-level policies. This
allows us to represent the behaviors in the dataset faithfully while keeping
the expression ability to recover the whole policy space. We show that such
lossless primitives can drastically improve the performance of hierarchical
policies. The experimental results and extensive ablation studies on the
standard D4RL benchmark show that our method has a good representation ability
for policies and achieves superior performance in most tasks.
- Abstract(参考訳): オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。
これまでの研究では、ログデータの繰り返しおよび時間的に拡張された構造から原始的なスキルを抽出することで、より良い学習が得られることが示されている。
しかし、これらの手法はプリミティブがオリジナルのポリシー空間を復元する限られた表現能力を持つ場合、特にオフライン環境では大きな影響を受ける。
本稿では、オフライン階層学習の性能を定量的に評価し、損失のないプリミティブの学習の重要性を強調する。
この目的のために,低レベルポリシの表現として \emph{flow} に基づく構造を用いることを提案する。
これにより、ポリシー空間全体を回復する表現能力を保ちながら、データセットの振る舞いを忠実に表現することができます。
このような損失のないプリミティブは、階層ポリシーのパフォーマンスを劇的に改善できることを示します。
標準D4RLベンチマーク実験の結果,提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することが示された。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - A Policy-Guided Imitation Approach for Offline Reinforcement Learning [9.195775740684248]
政策誘導型オフラインRL(textttPOR)を紹介する。
textttPORは、オフラインRLの標準ベンチマークであるD4RLで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-10-15T15:54:28Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。