論文の概要: DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.06662v1
- Date: Sun, 13 Mar 2022 14:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:16:08.228081
- Title: DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement
Learning
- Title(参考訳): DARA: オフライン強化学習におけるダイナミック・アウェア・リワード強化
- Authors: Jinxin Liu, Hongyin Zhang, Donglin Wang
- Abstract要約: オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスを取得できないような設定に適用されることを約束する。
本稿では,他のダイナミックスから収集した(ソース)オフラインデータを用いて,大規模な(ターゲット)オフラインデータの要求を緩和することで,オフラインダイナミックス適応を定式化する。
ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。
- 参考スコア(独自算出の注目度): 17.664027379555183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning algorithms promise to be applicable in
settings where a fixed dataset is available and no new experience can be
acquired. However, such formulation is inevitably offline-data-hungry and, in
practice, collecting a large offline dataset for one specific task over one
specific environment is also costly and laborious. In this paper, we thus 1)
formulate the offline dynamics adaptation by using (source) offline data
collected from another dynamics to relax the requirement for the extensive
(target) offline data, 2) characterize the dynamics shift problem in which
prior offline methods do not scale well, and 3) derive a simple dynamics-aware
reward augmentation (DARA) framework from both model-free and model-based
offline settings. Specifically, DARA emphasizes learning from those source
transition pairs that are adaptive for the target environment and mitigates the
offline dynamics shift by characterizing state-action-next-state pairs instead
of the typical state-action distribution sketched by prior offline RL methods.
The experimental evaluation demonstrates that DARA, by augmenting rewards in
the source offline dataset, can acquire an adaptive policy for the target
environment and yet significantly reduce the requirement of target offline
data. With only modest amounts of target offline data, our performance
consistently outperforms the prior offline RL methods in both simulated and
real-world tasks.
- Abstract(参考訳): オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスが取得できない設定に適用できることを約束している。
しかし、このような定式化は必然的にオフラインデータ処理であり、実際には、1つの特定のタスクに対する大規模なオフラインデータセットを1つの特定の環境上で収集するのも費用がかかる。
そこで本研究では,
1) 広範な(ターゲット)オフラインデータの要求を緩和するために、他のダイナミクスから収集された(ソース)オフラインデータを使用して、オフラインダイナミックス適応を公式化する。
2)事前オフラインメソッドが十分にスケールしないダイナミクスシフト問題の特徴と課題
3) モデルフリーおよびモデルベースオフライン設定の両方から、シンプルなDynamics-Aware reward Augmentation (DARA)フレームワークを導き出す。
具体的には、DARAは、ターゲット環境に適応するソース遷移ペアからの学習を強調し、以前のオフラインRL法でスケッチされた典型的な状態-動作分布ではなく、状態-動作-next状態ペアを特徴付けることによって、オフラインダイナミクスシフトを緩和する。
実験評価の結果、daraは、ソースオフラインデータセットの報酬を増強することで、ターゲット環境に対する適応ポリシーを取得しながら、ターゲットオフラインデータの必要性を著しく低減できることが示されている。
ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。