論文の概要: GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.16907v1
- Date: Mon, 27 May 2024 07:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:31:14.622628
- Title: GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning
- Title(参考訳): GTA:オフライン強化学習のためのガイダンスによる生成軌道拡張
- Authors: Jaewoo Lee, Sujin Yun, Taeyoung Yun, Jinkyoo Park,
- Abstract要約: Generative Trajectory Augmentation (GTA) は、トラジェクトリを高次かつ動的に検証可能なように拡張することで、オフラインデータを豊かにするように設計されている。
以上の結果から,GTAは汎用データ拡張戦略として,高密度かつ疎度な報酬設定において,広く使われているオフラインRLアルゴリズムの性能を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 19.228156994045587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Reinforcement Learning (Offline RL) presents challenges of learning effective decision-making policies from static datasets without any online interactions. Data augmentation techniques, such as noise injection and data synthesizing, aim to improve Q-function approximation by smoothing the learned state-action region. However, these methods often fall short of directly improving the quality of offline datasets, leading to suboptimal results. In response, we introduce \textbf{GTA}, Generative Trajectory Augmentation, a novel generative data augmentation approach designed to enrich offline data by augmenting trajectories to be both high-rewarding and dynamically plausible. GTA applies a diffusion model within the data augmentation framework. GTA partially noises original trajectories and then denoises them with classifier-free guidance via conditioning on amplified return value. Our results show that GTA, as a general data augmentation strategy, enhances the performance of widely used offline RL algorithms in both dense and sparse reward settings. Furthermore, we conduct a quality analysis of data augmented by GTA and demonstrate that GTA improves the quality of the data. Our code is available at https://github.com/Jaewoopudding/GTA
- Abstract(参考訳): オフライン強化学習(Offline Reinforcement Learning (Offline RL))は、オンラインインタラクションなしで静的データセットから効果的な意思決定ポリシーを学ぶという課題を提示している。
ノイズ注入やデータ合成などのデータ拡張技術は、学習状態領域を滑らかにすることでQ関数近似を改善することを目的としている。
しかし、これらの手法は、オフラインデータセットの質を直接的に改善するに足りず、亜最適結果をもたらすことが多い。
そこで本稿では,高次かつ動的に検証可能なトラジェクトリを増大させることにより,オフラインデータの強化を目的とした新しい生成データ拡張手法である,生成トラジェクトリ拡張(Generative Trajectory Augmentation)を提案する。
GTAはデータ拡張フレームワークに拡散モデルを適用します。
GTAは元のトラジェクトリを部分的にノイズし、増幅された戻り値の条件付けにより、分類子なしのガイダンスでノイズを発生させる。
以上の結果から,GTAは汎用データ拡張戦略として,高密度かつ疎度な報酬設定において,広く使われているオフラインRLアルゴリズムの性能を向上させることが示唆された。
さらに、GTAによって強化されたデータの品質分析を行い、GTAがデータの品質を改善することを示す。
私たちのコードはhttps://github.com/Jaewoopudding/GTAで利用可能です。
関連論文リスト
- Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based
Trajectory Stitching [21.263554926053178]
オフライン強化学習(RL)では、学習ポリシーのパフォーマンスはオフラインデータセットの品質に大きく依存する。
本稿では拡散に基づく新しいデータ拡張パイプラインであるDiffStitchについて紹介する。
DiffStitchは、ローリワード軌道と高リワード軌道を効果的に接続し、オフラインRLアルゴリズムが直面する課題に対処するために、グローバルに最適な軌道を形成する。
論文 参考訳(メタデータ) (2024-02-04T10:30:23Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。