論文の概要: State-Covering Trajectory Stitching for Diffusion Planners
- arxiv url: http://arxiv.org/abs/2506.00895v2
- Date: Fri, 06 Jun 2025 09:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.040889
- Title: State-Covering Trajectory Stitching for Diffusion Planners
- Title(参考訳): 拡散平面に対する状態制御軌道スティッチ
- Authors: Kyowoon Lee, Jaesik Choi,
- Abstract要約: State-Covering Trajectory Stitching (SCoTS)は、短いトラジェクトリセグメントを縫合する報酬のないトラジェクトリ拡張法である。
SCoTSは,オフラインの目標条件付きベンチマーク上での拡散プランナの性能と一般化能力を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 23.945423041112036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models are emerging as powerful tools for long-horizon planning in reinforcement learning (RL), particularly with offline datasets. However, their performance is fundamentally limited by the quality and diversity of training data. This often restricts their generalization to tasks outside their training distribution or longer planning horizons. To overcome this challenge, we propose State-Covering Trajectory Stitching (SCoTS), a novel reward-free trajectory augmentation method that incrementally stitches together short trajectory segments, systematically generating diverse and extended trajectories. SCoTS first learns a temporal distance-preserving latent representation that captures the underlying temporal structure of the environment, then iteratively stitches trajectory segments guided by directional exploration and novelty to effectively cover and expand this latent space. We demonstrate that SCoTS significantly improves the performance and generalization capabilities of diffusion planners on offline goal-conditioned benchmarks requiring stitching and long-horizon reasoning. Furthermore, augmented trajectories generated by SCoTS significantly improve the performance of widely used offline goal-conditioned RL algorithms across diverse environments.
- Abstract(参考訳): 拡散に基づく生成モデルは、強化学習(RL)における長期計画のための強力なツールとして、特にオフラインデータセットで登場している。
しかし、その性能はトレーニングデータの質と多様性によって根本的に制限されている。
これはしばしば、トレーニング分布外のタスクへの一般化や、より長い計画的地平線に制限される。
この課題を克服するために、我々は、短いトラジェクトリセグメントを漸進的に縫合し、多様で拡張されたトラジェクトリを系統的に生成する、新しい報酬のないトラジェクトリ拡張法であるState-Covering Trajectory Stitching (SCoTS)を提案する。
SCoTSはまず、環境の根底にある時間構造を捉えた時間的距離保存潜時表現を学習し、次に方向探索と新規性によって導かれる軌道セグメントを反復的に縫い付け、この潜時空間を効果的にカバーし拡張する。
SCoTSは, オフラインの目標条件付きベンチマーク上での拡散プランナの性能と一般化性能を著しく向上することを示した。
さらに、SCoTSによって生成された拡張軌道は、様々な環境において広く使われているオフライン目標条件付きRLアルゴリズムの性能を著しく向上させる。
関連論文リスト
- Prior-Guided Diffusion Planning for Offline Reinforcement Learning [4.760537994346813]
Prior Guidance (PG) は、標準ガウスの拡散モデルを置き換える新しいサンプリングフレームワークである。
PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成する。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion [62.91968752955649]
本稿では,学習データよりも長い軌道計画を行うための,拡張可能な長期計画支援エージェントの課題に対処する。
より短いものを縫い合わせることで、より長い軌跡を反復的に生成する拡張法を提案する。
HM-ディフューザーは階層構造を用いてこれらの拡張軌道を訓練し、複数の時間スケールにわたるタスクを効率的に処理する。
論文 参考訳(メタデータ) (2025-03-25T22:52:46Z) - SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - Diffusion Meets Options: Hierarchical Generative Skill Composition for Temporally-Extended Tasks [12.239868705130178]
線形時間論理(LTL)によって規定された命令に基づいて計画の生成と更新を行うデータ駆動階層型フレームワークを提案する。
提案手法は,オフラインの非専門家データセットから階層的強化学習を用いて,時間的タスクを選択肢の連鎖に分解する。
バッチ生成における行列誘導後サンプリング手法を考案し,拡散生成オプションの速度と多様性を向上する。
論文 参考訳(メタデータ) (2024-10-03T11:10:37Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。