論文の概要: GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.16907v2
- Date: Tue, 28 May 2024 07:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 10:59:04.101029
- Title: GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning
- Title(参考訳): GTA:オフライン強化学習のためのガイダンスによる生成軌道拡張
- Authors: Jaewoo Lee, Sujin Yun, Taeyoung Yun, Jinkyoo Park,
- Abstract要約: Generative Trajectory Augmentation (GTA) は、トラジェクトリを高次かつ動的に検証可能なように拡張することで、オフラインデータを豊かにするように設計されている。
以上の結果から,GTAは汎用データ拡張戦略として,高密度かつ疎度な報酬設定において,広く使われているオフラインRLアルゴリズムの性能を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 19.228156994045587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Reinforcement Learning (Offline RL) presents challenges of learning effective decision-making policies from static datasets without any online interactions. Data augmentation techniques, such as noise injection and data synthesizing, aim to improve Q-function approximation by smoothing the learned state-action region. However, these methods often fall short of directly improving the quality of offline datasets, leading to suboptimal results. In response, we introduce \textbf{GTA}, Generative Trajectory Augmentation, a novel generative data augmentation approach designed to enrich offline data by augmenting trajectories to be both high-rewarding and dynamically plausible. GTA applies a diffusion model within the data augmentation framework. GTA partially noises original trajectories and then denoises them with classifier-free guidance via conditioning on amplified return value. Our results show that GTA, as a general data augmentation strategy, enhances the performance of widely used offline RL algorithms in both dense and sparse reward settings. Furthermore, we conduct a quality analysis of data augmented by GTA and demonstrate that GTA improves the quality of the data. Our code is available at https://github.com/Jaewoopudding/GTA
- Abstract(参考訳): オフライン強化学習(Offline Reinforcement Learning (Offline RL))は、オンラインインタラクションなしで静的データセットから効果的な意思決定ポリシーを学ぶという課題を提示している。
ノイズ注入やデータ合成などのデータ拡張技術は、学習状態領域を滑らかにすることでQ関数近似を改善することを目的としている。
しかし、これらの手法は、オフラインデータセットの質を直接的に改善するに足りず、亜最適結果をもたらすことが多い。
そこで本稿では,高次かつ動的に検証可能なトラジェクトリを増大させることにより,オフラインデータの強化を目的とした新しい生成データ拡張手法である,生成トラジェクトリ拡張(Generative Trajectory Augmentation)を提案する。
GTAはデータ拡張フレームワークに拡散モデルを適用します。
GTAは元のトラジェクトリを部分的にノイズし、増幅された戻り値の条件付けにより、分類子なしのガイダンスでノイズを発生させる。
以上の結果から,GTAは汎用データ拡張戦略として,高密度かつ疎度な報酬設定において,広く使われているオフラインRLアルゴリズムの性能を向上させることが示唆された。
さらに、GTAによって強化されたデータの品質分析を行い、GTAがデータの品質を改善することを示す。
私たちのコードはhttps://github.com/Jaewoopudding/GTAで利用可能です。
関連論文リスト
- ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Distilling Conditional Diffusion Models for Offline Reinforcement
Learning through Trajectory Stitching [14.295558685860941]
本稿では,データ拡張に基づく知識蒸留手法を提案する。
高反射軌道は条件付き拡散モデルから生成され、新しい縫合アルゴリズムにより元の軌道とブレンドされる。
結果として得られたデータセットを行動的クローニングに適用することにより、D4RLベンチマークの詳細な生成プランナに匹敵するサイズがはるかに小さい、あるいははるかに小さい、学習の浅いポリシが実現される。
論文 参考訳(メタデータ) (2024-02-01T17:44:11Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。