論文の概要: CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.13412v1
- Date: Fri, 23 Jun 2023 09:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 13:06:26.561452
- Title: CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning
- Title(参考訳): CLUE: オフライン強化学習のための校正潜在ガイダンス
- Authors: Jinxin Liu, Lipeng Zu, Li He, Donglin Wang
- Abstract要約: textbfCalibrated textbfLatent gtextbfUidanctextbfE (CLUE)を導入する。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
- 参考スコア(独自算出の注目度): 18.02102897648977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) aims to learn an optimal policy from
pre-collected and labeled datasets, which eliminates the time-consuming data
collection in online RL. However, offline RL still bears a large burden of
specifying/handcrafting extrinsic rewards for each transition in the offline
data. As a remedy for the labor-intensive labeling, we propose to endow offline
RL tasks with a few expert data and utilize the limited expert data to drive
intrinsic rewards, thus eliminating the need for extrinsic rewards. To achieve
that, we introduce \textbf{C}alibrated \textbf{L}atent
g\textbf{U}idanc\textbf{E} (CLUE), which utilizes a conditional variational
auto-encoder to learn a latent space such that intrinsic rewards can be
directly qualified over the latent space. CLUE's key idea is to align the
intrinsic rewards consistent with the expert intention via enforcing the
embeddings of expert data to a calibrated contextual representation. We
instantiate the expert-driven intrinsic rewards in sparse-reward offline RL
tasks, offline imitation learning (IL) tasks, and unsupervised offline RL
tasks. Empirically, we find that CLUE can effectively improve the sparse-reward
offline RL performance, outperform the state-of-the-art offline IL baselines,
and discover diverse skills from static reward-free offline data.
- Abstract(参考訳): オフライン強化学習(rl)は、事前収集およびラベル付きデータセットから最適なポリシーを学習することを目的としている。
しかし、オフラインRLは、オフラインデータの遷移ごとに外因的な報酬を指定/手作りする大きな負担を被っている。
労働集約的ラベリングの救済策として,少数の専門家データを用いたオフラインrlタスクの付与と,限られた専門家データによる内在的な報酬の促進を提案する。
これを実現するために,条件付き変分オートエンコーダを用いて潜在空間を学習し,内在的な報酬を潜在空間上で直接評価できるような潜在空間を学習する,\textbf{c}alibrated \textbf{l}atent g\textbf{u}idanc\textbf{e} (clue) を導入する。
CLUEのキーとなる考え方は、専門家データの埋め込みをキャリブレーションされた文脈表現に強制することで、本質的な報酬を専門家の意図と一致させることである。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
実験的に、CLUEはスパース逆オフラインRL性能を効果的に改善し、最先端のオフラインILベースラインより優れ、静的な報酬なしオフラインデータから多様なスキルを発見できることがわかった。
関連論文リスト
- SEABO: A Simple Search-Based Method for Offline Imitation Learning [57.2723889718596]
オフライン強化学習(RL)は、静的なオフラインデータセットから学習できることから、多くの注目を集めている。
本稿では,SEABOをタグ付けした単純な検索に基づくオフラインIL手法を提案する。
この結果から,SEABOは1つの専門的軌道のみを考慮し,実効性を持つオフラインRLアルゴリズムに競合する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T08:48:01Z) - Survival Instinct in Offline Reinforcement Learning [28.319886852612672]
報酬ラベルをトレーニングしても、オフラインのRLは最適で安全なポリシを生成することができる。
この驚くべき性質は、オフラインRLアルゴリズムにおける悲観的概念と、一般的なデータ収集手法におけるある種の暗黙的偏見の相互作用に起因することを実証する。
我々の経験的および理論的結果は、エージェントが不完全な報酬を伴う望ましい行動を学ぶために、不完全なデータカバレッジを意図的にバイアスするRLの新しいパラダイムを示唆している。
論文 参考訳(メタデータ) (2023-06-05T22:15:39Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - The Provable Benefits of Unsupervised Data Sharing for Offline
Reinforcement Learning [25.647624787936028]
オフライン強化学習に報酬のないデータを利用する新しいPDS(Provable Data Sharing Algorithm)を提案する。
PDSは、報酬のないデータを用いたオフラインRLアルゴリズムの性能を大幅に改善する。
論文 参考訳(メタデータ) (2023-02-27T03:35:02Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。