論文の概要: MGDA: Model-based Goal Data Augmentation for Offline Goal-conditioned Weighted Supervised Learning
- arxiv url: http://arxiv.org/abs/2412.11410v2
- Date: Fri, 20 Dec 2024 11:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 13:01:34.581101
- Title: MGDA: Model-based Goal Data Augmentation for Offline Goal-conditioned Weighted Supervised Learning
- Title(参考訳): MGDA:オフラインゴール条件重み学習のためのモデルに基づくゴールデータ拡張
- Authors: Xing Lei, Xuetao Zhang, Donglin Wang,
- Abstract要約: Goal-Conditioned Weighted Supervised Learning (GCWSL) と呼ばれる最先端のアルゴリズムが、オフライン目標条件強化学習 (RL) における課題に取り組むために導入された。
GCWSLは、多様な目標達成タスクで優れたパフォーマンスを示し、シンプルで効果的で安定したソリューションを提供しています。
しかし、以前の研究ではGCWSLの限界として、軌跡縫合能力の欠如が指摘されている。
本稿では,モデルに基づく目標データ拡張(MGDA)アプローチを提案する。
- 参考スコア(独自算出の注目度): 23.422157931057498
- License:
- Abstract: Recently, a state-of-the-art family of algorithms, known as Goal-Conditioned Weighted Supervised Learning (GCWSL) methods, has been introduced to tackle challenges in offline goal-conditioned reinforcement learning (RL). GCWSL optimizes a lower bound of the goal-conditioned RL objective and has demonstrated outstanding performance across diverse goal-reaching tasks, providing a simple, effective, and stable solution. However, prior research has identified a critical limitation of GCWSL: the lack of trajectory stitching capabilities. To address this, goal data augmentation strategies have been proposed to enhance these methods. Nevertheless, existing techniques often struggle to sample suitable augmented goals for GCWSL effectively. In this paper, we establish unified principles for goal data augmentation, focusing on goal diversity, action optimality, and goal reachability. Based on these principles, we propose a Model-based Goal Data Augmentation (MGDA) approach, which leverages a learned dynamics model to sample more suitable augmented goals. MGDA uniquely incorporates the local Lipschitz continuity assumption within the learned model to mitigate the impact of compounding errors. Empirical results show that MGDA significantly enhances the performance of GCWSL methods on both state-based and vision-based maze datasets, surpassing previous goal data augmentation techniques in improving stitching capabilities.
- Abstract(参考訳): 近年,オフライン目標条件強化学習(RL)における課題に対処するために,GCWSL法(Goal-Conditioned Weighted Supervised Learning)と呼ばれる最先端のアルゴリズムが導入された。
GCWSLは、目標条件付きRL目標の下位境界を最適化し、多様な目標達成タスクにまたがる優れた性能を示し、単純で効果的で安定したソリューションを提供する。
しかし、以前の研究ではGCWSLの限界として、軌跡縫合能力の欠如が指摘されている。
これを解決するために、これらの手法を強化するためにゴールデータ拡張戦略が提案されている。
それにもかかわらず、既存の技術はGCWSLの適切な拡張目標を効果的にサンプリングするのに苦労することが多い。
本稿では,目標データ拡張のための統一原則を確立し,目標の多様性,行動最適性,目標到達性に着目した。
これらの原理に基づき、より適切な拡張目標のサンプリングに学習力学モデルを活用するモデルベースゴールデータ拡張(MGDA)アプローチを提案する。
MGDAは学習モデルに局所リプシッツ連続性仮定を独自に組み込んで、複合エラーの影響を軽減する。
実験の結果,MGDAはGCWSL法の性能を大幅に向上させ,従来の目標データ拡張手法を超越して縫合能力の向上を図っている。
関連論文リスト
- Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Swapped goal-conditioned offline reinforcement learning [8.284193221280216]
本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。
実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-02-17T13:22:40Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Rethinking Goal-conditioned Supervised Learning and Its Connection to
Offline RL [49.26825108780872]
Goal-Conditioned Supervised Learning (GCSL)は、自己生成体験を反復的に再現して、新たな学習フレームワークを提供する。
我々はGCSLを新しいオフラインゴール条件付きRLアルゴリズムとして拡張する。
WGCSLはGCSLと既存の最先端のオフラインメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2022-02-09T14:17:05Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - MapGo: Model-Assisted Policy Optimization for Goal-Oriented Tasks [37.529217646431825]
目標志向の強化学習では、過去の経験から生の目標を緩和して、エージェントに後見能力を提供することが、報酬空間の問題に対する主要な解決策である。
FGI(Foresight Goal Inference)は、学習されたダイナミックスモデルで未来を見据えて、目標をリラベルする新しいラベリング戦略である。
サンプル効率を向上させるため,政策学習のためのシミュレーション軌道を生成するために動的モデルを提案する。
論文 参考訳(メタデータ) (2021-05-13T15:07:23Z) - Hindsight Expectation Maximization for Goal-conditioned Reinforcement
Learning [26.631740480100724]
本稿では,目標条件付きRLのためのグラフィカルモデルフレームワークを提案する。
Eステップは、HERのような「後見の学習」技法が、極めてスパースなゴール条件の報酬を扱う方法の自然な解釈を提供する。
Mステップは、教師付き学習更新にポリシー最適化を還元し、画像などの高次元入力に対するエンドツーエンドトレーニングを大幅に安定化する。
論文 参考訳(メタデータ) (2020-06-13T03:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。