論文の概要: Beyond OOD State Actions: Supported Cross-Domain Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.12755v1
- Date: Thu, 22 Jun 2023 09:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:07:22.080098
- Title: Beyond OOD State Actions: Supported Cross-Domain Offline Reinforcement
Learning
- Title(参考訳): ood状態アクションを超えて:クロスドメインオフライン強化学習をサポート
- Authors: Jinxin Liu, Ziqi Zhang, Zhenyu Wei, Zifeng Zhuang, Yachen Kang, Sibo
Gai, Donglin Wang
- Abstract要約: オフライン強化学習(RL)は、事前コンパイルされたデータと固定されたデータのみを使用してポリシーを学習することを目的としている。
データ非効率性に多くの努力が注がれているが、オフラインRLでは後者(データ非効率性)はほとんど注目されていない。
本稿では、オフラインデータに追加のソース・ドメインデータが含まれることを前提として、クロスドメインオフラインRLを提案する。
- 参考スコア(独自算出の注目度): 21.866185834905274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) aims to learn a policy using only
pre-collected and fixed data. Although avoiding the time-consuming online
interactions in RL, it poses challenges for out-of-distribution (OOD) state
actions and often suffers from data inefficiency for training. Despite many
efforts being devoted to addressing OOD state actions, the latter (data
inefficiency) receives little attention in offline RL. To address this, this
paper proposes the cross-domain offline RL, which assumes offline data
incorporate additional source-domain data from varying transition dynamics
(environments), and expects it to contribute to the offline data efficiency. To
do so, we identify a new challenge of OOD transition dynamics, beyond the
common OOD state actions issue, when utilizing cross-domain offline data. Then,
we propose our method BOSA, which employs two support-constrained objectives to
address the above OOD issues. Through extensive experiments in the cross-domain
offline RL setting, we demonstrate BOSA can greatly improve offline data
efficiency: using only 10\% of the target data, BOSA could achieve {74.4\%} of
the SOTA offline RL performance that uses 100\% of the target data.
Additionally, we also show BOSA can be effortlessly plugged into model-based
offline RL and noising data augmentation techniques (used for generating
source-domain data), which naturally avoids the potential dynamics mismatch
between target-domain data and newly generated source-domain data.
- Abstract(参考訳): オフライン強化学習(RL)は、事前収集データと固定データのみを用いてポリシーを学習することを目的としている。
RLにおける時間を要するオンラインインタラクションを避けながら、アウト・オブ・ディストリビューション(OOD)状態のアクションに挑戦し、トレーニングにデータ非効率に悩まされることが多い。
OOD状態のアクションに対処するために多くの努力がなされているが、後者(データ非効率)はオフラインのRLではほとんど注目されない。
そこで本稿では,オフラインデータが様々な遷移ダイナミクス(環境)から追加のソースドメインデータを取り込み,オフラインデータ効率に貢献することを想定した,クロスドメインオフラインrlを提案する。
そこで我々は,クロスドメインオフラインデータを利用する場合のood状態動作問題を超えて,ood遷移ダイナミクスの新たな課題を特定する。
そこで本稿では,上記のOOD問題に対処するために,サポート制約付き2つの目的を用いたBOSAを提案する。
BOSAは、クロスドメインのオフラインRL設定における広範な実験を通じて、ターゲットデータの10%しか使用せず、ターゲットデータの100パーセントを使用するSOTAオフラインRL性能の {74.4\%} を達成できることを示した。
さらに,BOSA をモデルベースオフライン RL に強制的に接続し,対象ドメインデータと新たに生成されたソースドメインデータとの動的ミスマッチを自然に回避するデータ拡張技術 (ソースドメインデータ生成に使用される) を通知する。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement
Learning [17.664027379555183]
オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスを取得できないような設定に適用されることを約束する。
本稿では,他のダイナミックスから収集した(ソース)オフラインデータを用いて,大規模な(ターゲット)オフラインデータの要求を緩和することで,オフラインダイナミックス適応を定式化する。
ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。
論文 参考訳(メタデータ) (2022-03-13T14:30:55Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。