論文の概要: ASTRO: Adaptive Stitching via Dynamics-Guided Trajectory Rollouts
- arxiv url: http://arxiv.org/abs/2511.23442v1
- Date: Fri, 28 Nov 2025 18:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.025018
- Title: ASTRO: Adaptive Stitching via Dynamics-Guided Trajectory Rollouts
- Title(参考訳): ASTRO:Dynamics-Guided Trajectory Rolloutsによる適応型スチッチ
- Authors: Hang Yu, Di Zhang, Qiwei Du, Yanping Zhao, Hai Zhang, Guang Chen, Eduardo E. Veas, Junqiao Zhao,
- Abstract要約: 本稿では,データ拡張フレームワークASTROを提案する。
ASTROはまず時間距離の表現を学習し、区別され、到達可能な縫合ターゲットを特定する。
次に、動的誘導型縫合プランナを用い、ロールアウト偏差フィードバックを介して接続動作シーケンスを適応的に生成する。
- 参考スコア(独自算出の注目度): 22.46606397400043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) enables agents to learn optimal policies from pre-collected datasets. However, datasets containing suboptimal and fragmented trajectories present challenges for reward propagation, resulting in inaccurate value estimation and degraded policy performance. While trajectory stitching via generative models offers a promising solution, existing augmentation methods frequently produce trajectories that are either confined to the support of the behavior policy or violate the underlying dynamics, thereby limiting their effectiveness for policy improvement. We propose ASTRO, a data augmentation framework that generates distributionally novel and dynamics-consistent trajectories for offline RL. ASTRO first learns a temporal-distance representation to identify distinct and reachable stitch targets. We then employ a dynamics-guided stitch planner that adaptively generates connecting action sequences via Rollout Deviation Feedback, defined as the gap between target state sequence and the actual arrived state sequence by executing predicted actions, to improve trajectory stitching's feasibility and reachability. This approach facilitates effective augmentation through stitching and ultimately enhances policy learning. ASTRO outperforms prior offline RL augmentation methods across various algorithms, achieving notable performance gain on the challenging OGBench suite and demonstrating consistent improvements on standard offline RL benchmarks such as D4RL.
- Abstract(参考訳): オフライン強化学習(RL)により、エージェントは事前にコンパイルされたデータセットから最適なポリシーを学ぶことができる。
しかし、最適・断片的な軌道を含むデータセットは、報酬伝達の課題を示し、不正確な価値推定と劣化した政策性能をもたらす。
生成的モデルによる軌道縫合は有望な解決策を提供するが、既存の拡張法は行動方針の支持に制限された軌道をしばしば生成する。
本稿では,データ拡張フレームワークASTROを提案する。
ASTROはまず時間距離の表現を学習し、区別され、到達可能な縫合ターゲットを特定する。
次に, 目標状態列と実際の到達状態列とのギャップとして定義されたロールアウト偏差フィードバックを用いて, 動的縫合計画器を用い, 軌道縫合の実現可能性と到達性を向上させる。
このアプローチは、縫合による効果的な拡張を促進し、最終的にポリシー学習を強化する。
ASTROは、様々なアルゴリズムで以前のオフラインRL拡張手法よりも優れており、挑戦的なOGBenchスイートで顕著なパフォーマンス向上を達成し、D4RLのような標準オフラインRLベンチマークで一貫した改善を示している。
関連論文リスト
- Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [5.819784482811376]
Prior Guidance(PG)は、行動閉ざされた拡散モデルに先立って標準ガウスを置き換えた新しいサンプリングフレームワークである。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。
DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。
また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。