論文の概要: Online Finetuning Decision Transformers with Pure RL Gradients
- arxiv url: http://arxiv.org/abs/2601.00167v1
- Date: Thu, 01 Jan 2026 02:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.291297
- Title: Online Finetuning Decision Transformers with Pure RL Gradients
- Title(参考訳): 純RL勾配を用いたオンライン微調整決定変換器
- Authors: Junkai Luo, Yinglun Zhu,
- Abstract要約: 決定変換器(DT)は、シーケンシャルな意思決定のための強力なフレームワークとして登場した。
純粋強化学習勾配を用いた決定変換器のオンライン微調整を可能にする新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.215352918313577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision Transformers (DTs) have emerged as a powerful framework for sequential decision making by formulating offline reinforcement learning (RL) as a sequence modeling problem. However, extending DTs to online settings with pure RL gradients remains largely unexplored, as existing approaches continue to rely heavily on supervised sequence-modeling objectives during online finetuning. We identify hindsight return relabeling -- a standard component in online DTs -- as a critical obstacle to RL-based finetuning: while beneficial for supervised learning, it is fundamentally incompatible with importance sampling-based RL algorithms such as GRPO, leading to unstable training. Building on this insight, we propose new algorithms that enable online finetuning of Decision Transformers using pure reinforcement learning gradients. We adapt GRPO to DTs and introduce several key modifications, including sub-trajectory optimization for improved credit assignment, sequence-level likelihood objectives for enhanced stability and efficiency, and active sampling to encourage exploration in uncertain regions. Through extensive experiments, we demonstrate that our methods outperform existing online DT baselines and achieve new state-of-the-art performance across multiple benchmarks, highlighting the effectiveness of pure-RL-based online finetuning for Decision Transformers.
- Abstract(参考訳): オフライン強化学習(RL)をシーケンスモデリング問題として定式化することで、逐次決定のための強力なフレームワークとして、決定変換器(DT)が登場した。
しかし、既存のアプローチは、オンラインの微調整中に教師付きシーケンスモデリングの目的に大きく依存しているため、純粋なRL勾配でDTをオンライン設定に拡張することは、まだほとんど探索されていない。
我々は、オンラインDTの標準コンポーネントである後視リターンレザベリングを、RLベースの微調整の重要な障害として認識する:教師付き学習には有益であるが、GRPOのような重要なサンプリングベースのRLアルゴリズムと根本的に互換性がなく、不安定なトレーニングをもたらす。
この知見に基づいて、純粋強化学習勾配を用いた決定変換器のオンライン微調整を可能にする新しいアルゴリズムを提案する。
我々は、GRPOをDTに適応させ、クレジット割り当てを改善するためのサブ軌道最適化、安定性と効率を向上させるためのシーケンスレベルの可能性目標、不確実な地域での探索を促進するためのアクティブサンプリングなど、いくつかの重要な修正を導入する。
大規模な実験を通じて,本手法が既存のオンラインDTベースラインを上回り,複数のベンチマークにまたがる新たな最先端性能を実現することを実証し,純粋RLを用いた決定変換器のオンライン微調整の有効性を強調した。
関連論文リスト
- From Static to Dynamic: Enhancing Offline-to-Online Reinforcement Learning via Energy-Guided Diffusion Stratification [3.2883573376133555]
StratDiffは、オフラインデータセットから事前知識を学ぶための拡散モデルである。
この知識は、エネルギーベースの機能を通じて洗練され、ポリシーの模倣を改善し、オンラインの微調整中にオフラインのようなアクションを生成する。
オフラインライクなサンプルはオフラインで更新され、オンラインライクなサンプルはオンライン学習戦略に従う。
論文 参考訳(メタデータ) (2025-11-05T19:48:46Z) - TemplateRL: Structured Template-Guided Reinforcement Learning for LLM Reasoning [56.250782426571526]
強化学習(Reinforcement Learning, RL)は, モデル推論の強化に有効なパラダイムとして登場した。
本稿では、明示的なテンプレートガイダンスによってポリシー最適化を向上する構造化テンプレート誘導型RLフレームワークを提案する。
提案手法はまず, MCTS を用いて小さなシードセット上に問題解決テンプレートライブラリを構築し, この高レベルの構造化ガイダンスを RL トレーニングにシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-21T16:06:10Z) - Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers [111.78179839856293]
オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。
オンラインの意思決定の微調整は驚くほど過小評価されている。
ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-31T16:38:51Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Online Decision Transformer [30.54774566089644]
オフライン強化学習(RL)はシーケンスモデリング問題として定式化することができる。
Online Decision Transformers (ODT) は、オフライン事前トレーニングとオンライン微調整をブレンドしたシーケンスモデリングに基づくRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-11T13:43:24Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - Two-stage Deep Reinforcement Learning for Inverter-based Volt-VAR
Control in Active Distribution Networks [3.260913246106564]
本稿では,インバータを用いたエネルギー資源の制御により,電圧分布を改善するための2段階深部強化学習法を提案する。
オフライン段階では、モデルミスマッチに頑健なオフラインエージェントを訓練するために、高い効率の対向強化学習アルゴリズムが開発された。
連続的なオンライン段階において、オフラインエージェントをオンラインエージェントとして安全に転送し、継続的な学習を行い、オンラインで制御し、安全性と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2020-05-20T08:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。