論文の概要: STO-RL: Offline RL under Sparse Rewards via LLM-Guided Subgoal Temporal Order
- arxiv url: http://arxiv.org/abs/2601.08107v1
- Date: Tue, 13 Jan 2026 00:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.996557
- Title: STO-RL: Offline RL under Sparse Rewards via LLM-Guided Subgoal Temporal Order
- Title(参考訳): STO-RL:LLM誘導サブゴラルオーダーによるスパースリワード下のオフラインRL
- Authors: Chengyang Gu, Yuxin Pan, Hui Xiong, Yize Chen,
- Abstract要約: STO-RL (Offline RL using LLM-Guided Subgoal Order) を提案する。
STO-RLは、最先端のオフライン目標条件と階層的RLベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 16.49862942485022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) enables policy learning from pre-collected datasets, avoiding costly and risky online interactions, but it often struggles with long-horizon tasks involving sparse rewards. Existing goal-conditioned and hierarchical offline RL methods decompose such tasks and generate intermediate rewards to mitigate limitations of traditional offline RL, but usually overlook temporal dependencies among subgoals and rely on imprecise reward shaping, leading to suboptimal policies. To address these issues, we propose STO-RL (Offline RL using LLM-Guided Subgoal Temporal Order), an offline RL framework that leverages large language models (LLMs) to generate temporally ordered subgoal sequences and corresponding state-to-subgoal-stage mappings. Using this temporal structure, STO-RL applies potential-based reward shaping to transform sparse terminal rewards into dense, temporally consistent signals, promoting subgoal progress while avoiding suboptimal solutions. The resulting augmented dataset with shaped rewards enables efficient offline training of high-performing policies. Evaluations on four discrete and continuous sparse-reward benchmarks demonstrate that STO-RL consistently outperforms state-of-the-art offline goal-conditioned and hierarchical RL baselines, achieving faster convergence, higher success rates, and shorter trajectories. Ablation studies further confirm STO-RL's robustness to imperfect or noisy LLM-generated subgoal sequences, demonstrating that LLM-guided subgoal temporal structures combined with theoretically grounded reward shaping provide a practical and scalable solution for long-horizon offline RL.
- Abstract(参考訳): オフライン強化学習(RL)は、事前収集されたデータセットからポリシー学習を可能にし、コストが高くリスクの高いオンラインインタラクションを回避する。
既存のゴール条件付き、階層的なオフラインRLメソッドは、そのようなタスクを分解し、従来のオフラインRLの制限を緩和するために中間報酬を生成するが、通常、サブゴール間の時間的依存関係を見落とし、不正確な報酬形成に依存し、最適化ポリシーに繋がる。
これらの問題に対処するため,LLM-Guided Subgoal Order を用いた STO-RL (Offline RL) を提案する。
この時間構造を用いて、STO-RLは電位に基づく報酬形成を適用し、スパース終末報酬を高密度で時間的に一貫した信号に変換する。
結果として、字型の報酬を持つ拡張データセットは、高性能なポリシーの効率的なオフライントレーニングを可能にする。
4つの離散的かつ連続的なスパース・リワードベンチマークの評価は、STO-RLが最先端のオフライン目標条件と階層的RLベースラインを一貫して上回り、より高速な収束、より高い成功率、より短い軌道を達成していることを示している。
アブレーション研究では、STO-RLのLLM生成サブゴナル配列の不完全またはノイズに対する堅牢性をさらに確認し、LLM誘導サブゴアル時間構造と理論的に基底化された報酬形成を組み合わせることで、長軸オフラインRLの実用的でスケーラブルな解が得られることを示した。
関連論文リスト
- ASTRO: Adaptive Stitching via Dynamics-Guided Trajectory Rollouts [22.46606397400043]
本稿では,データ拡張フレームワークASTROを提案する。
ASTROはまず時間距離の表現を学習し、区別され、到達可能な縫合ターゲットを特定する。
次に、動的誘導型縫合プランナを用い、ロールアウト偏差フィードバックを介して接続動作シーケンスを適応的に生成する。
論文 参考訳(メタデータ) (2025-11-28T18:35:37Z) - Expressive Value Learning for Scalable Offline Reinforcement Learning [9.946269411850064]
強化学習(Reinforcement Learning, RL)は、意思決定の順序を学習するための強力なパラダイムである。
オフラインRLは、大規模で多様なデータセットのトレーニングエージェントによる有望な道を提供する。
オフライン強化学習のための表現的価値学習(EVOR)を導入する。これはスケーラブルなオフラインRLアプローチであり、表現的ポリシーと表現的価値関数を統合している。
論文 参考訳(メタデータ) (2025-10-09T13:42:20Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Are Expressive Models Truly Necessary for Offline RL? [18.425797519857113]
シークエンシャルモデリングでは、適切なポリシー性能を確保するために、軌道データの長い地平線を越えて正確なダイナミクスを捉える必要がある。
浅層2層モデルほど単純な軽量モデルは、正確な動的一貫性と逐次モデリングエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2024-12-15T17:33:56Z) - Stitching Sub-Trajectories with Conditional Diffusion Model for
Goal-Conditioned Offline RL [18.31263353823447]
本稿では,モデルに基づくオフラインゴールコンディション強化学習(Offline GCRL)手法を提案する。
本稿では,目標値と目標値に条件付けされた将来の計画を生成する拡散モデルを用いて,目標を許容するオフラインデータセットから目標値を推定する。
我々は,GCRLタスクの標準ベンチマークセットにおける最先端性能を報告し,オフラインデータ中の準最適軌道のセグメントを縫合して高品質な計画を生成する能力を実証する。
論文 参考訳(メタデータ) (2024-02-11T15:23:13Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。