Fugu-MT 論文翻訳(概要): Stitching Sub-Trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL

論文の概要: Stitching Sub-Trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL

arxiv url: http://arxiv.org/abs/2402.07226v1
Date: Sun, 11 Feb 2024 15:23:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 16:41:33.572912
Title: Stitching Sub-Trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL
Title（参考訳）: ゴール条件付きオフラインRLの条件拡散モデルを用いたストッチングサブトラジェクトリ
Authors: Sungyoon Kim, Yunseon Choi, Daiki E. Matsunaga, and Kee-Eung Kim
Abstract要約: 本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
参考スコア（独自算出の注目度）: 18.31263353823447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline Goal-Conditioned Reinforcement Learning (Offline GCRL) is an important problem in RL that focuses on acquiring diverse goal-oriented skills solely from pre-collected behavior datasets. In this setting, the reward feedback is typically absent except when the goal is achieved, which makes it difficult to learn policies especially from a finite dataset of suboptimal behaviors. In addition, realistic scenarios involve long-horizon planning, which necessitates the extraction of useful skills within sub-trajectories. Recently, the conditional diffusion model has been shown to be a promising approach to generate high-quality long-horizon plans for RL. However, their practicality for the goal-conditioned setting is still limited due to a number of technical assumptions made by the methods. In this paper, we propose SSD (Sub-trajectory Stitching with Diffusion), a model-based offline GCRL method that leverages the conditional diffusion model to address these limitations. In summary, we use the diffusion model that generates future plans conditioned on the target goal and value, with the target value estimated from the goal-relabeled offline dataset. We report state-of-the-art performance in the standard benchmark set of GCRL tasks, and demonstrate the capability to successfully stitch the segments of suboptimal trajectories in the offline data to generate high-quality plans.
Abstract（参考訳）: オフライン目標定義強化学習(Offline GCRL)は、事前コンパイルされた行動データセットからのみ、多様な目標指向スキルを取得することに焦点を当てた、RLにおける重要な問題である。この設定では、通常、ゴールが達成されたとき以外は報酬フィードバックが欠如しており、特に準最適行動の有限データセットからポリシーを学ぶのが困難である。さらに、現実的なシナリオには、サブ軌道内で有用なスキルの抽出を必要とする長期計画が含まれる。近年、条件拡散モデルがRLの高品質な長距離計画を生成するための有望なアプローチであることが示されている。しかし, 目的条件設定の実用性は, その方法が生み出す多くの技術的仮定により, 依然として限定されている。本稿では,これらの制約に対処するために条件付き拡散モデルを利用するモデルベースオフラインGCRL法であるSSD(Sub-trajectory Stitching with Diffusion)を提案する。要約すると、目標目標と値に基づいて条件づけられた将来の計画を生成する拡散モデルを使い、目標値が目標リレーブされたオフラインデータセットから推定される。我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。

関連論文リスト

Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [31.509112804985133]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [3.5775697416994485]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。 GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文参考訳（メタデータ） (2024-12-29T16:42:30Z)
MGDA: Model-based Goal Data Augmentation for Offline Goal-conditioned Weighted Supervised Learning [23.422157931057498]
Goal-Conditioned Weighted Supervised Learning (GCWSL) と呼ばれる最先端のアルゴリズムが、オフライン目標条件強化学習 (RL) における課題に取り組むために導入された。 GCWSLは、多様な目標達成タスクで優れたパフォーマンスを示し、シンプルで効果的で安定したソリューションを提供しています。しかし、以前の研究ではGCWSLの限界として、軌跡縫合能力の欠如が指摘されている。本稿では,モデルに基づく目標データ拡張(MGDA)アプローチを提案する。
論文参考訳（メタデータ） (2024-12-16T03:25:28Z)
Are Expressive Models Truly Necessary for Offline RL? [18.425797519857113]
シークエンシャルモデリングでは、適切なポリシー性能を確保するために、軌道データの長い地平線を越えて正確なダイナミクスを捉える必要がある。浅層2層モデルほど単純な軽量モデルは、正確な動的一貫性と逐次モデリングエラーを著しく低減できることを示す。
論文参考訳（メタデータ） (2024-12-15T17:33:56Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文参考訳（メタデータ） (2023-10-31T19:16:07Z)
GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。 GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文参考訳（メタデータ） (2023-10-30T21:19:52Z)
HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。この階層的な分解によって、推定値関数のノイズに頑健になることを示す。提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文参考訳（メタデータ） (2023-07-22T00:17:36Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Goal-Conditioned Predictive Coding for Offline Reinforcement Learning [24.300131097275298]
本研究は, シーケンス・モデリングがトラジェクトリを, ポリシー学習を促進する有用な表現に凝縮する能力を持つかどうかを考察する。本稿では、強力な軌道表現を導出し、実行ポリシーをもたらすシーケンスモデリングの目的であるゴール・コンディション付き予測符号化を紹介する。
論文参考訳（メタデータ） (2023-07-07T06:12:14Z)
Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文参考訳（メタデータ） (2023-03-20T14:51:10Z)
Swapped goal-conditioned offline reinforcement learning [8.284193221280216]
本稿では、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。実験では、DQAPGは様々なベンチマークタスクにおいて、最先端のゴール条件付きオフラインRLメソッドよりも優れている。
論文参考訳（メタデータ） (2023-02-17T13:22:40Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Model-Based Offline Planning with Trajectory Pruning [15.841609263723575]
オフライン強化学習(RL)は、環境相互作用のない事前コンパイルデータセットを使用した学習ポリシーを可能にする。オフライン学習の制約と高性能計画の間のジレンマに取り組む新しい軽量モデルベースのオフライン計画フレームワークであるMOPPを提案します。実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと比較して,競争性能が向上していることがわかった。
論文参考訳（メタデータ） (2021-05-16T05:00:54Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。