論文の概要: Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers
- arxiv url: http://arxiv.org/abs/2410.24108v1
- Date: Thu, 31 Oct 2024 16:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:51.354888
- Title: Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers
- Title(参考訳): オンラインファインタニング決定変換器のビタミンとしての強化学習勾配
- Authors: Kai Yan, Alexander G. Schwing, Yu-Xiong Wang,
- Abstract要約: オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。
オンラインの意思決定の微調整は驚くほど過小評価されている。
ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 111.78179839856293
- License:
- Abstract: Decision Transformers have recently emerged as a new and compelling paradigm for offline Reinforcement Learning (RL), completing a trajectory in an autoregressive way. While improvements have been made to overcome initial shortcomings, online finetuning of decision transformers has been surprisingly under-explored. The widely adopted state-of-the-art Online Decision Transformer (ODT) still struggles when pretrained with low-reward offline data. In this paper, we theoretically analyze the online-finetuning of the decision transformer, showing that the commonly used Return-To-Go (RTG) that's far from the expected return hampers the online fine-tuning process. This problem, however, is well-addressed by the value function and advantage of standard RL algorithms. As suggested by our analysis, in our experiments, we hence find that simply adding TD3 gradients to the finetuning process of ODT effectively improves the online finetuning performance of ODT, especially if ODT is pretrained with low-reward offline data. These findings provide new directions to further improve decision transformers.
- Abstract(参考訳): 決定変換器は、最近、オフライン強化学習(RL)のための新しく魅力的なパラダイムとして登場し、自己回帰的な方法で軌道を完了した。
最初の欠点を克服するために改善が行われたが、決定変換器のオンライン微調整は驚くほど過小評価されている。
広く採用されている最先端の Online Decision Transformer (ODT) は、ローリワードオフラインデータで事前トレーニングされた場合でも、依然として苦戦している。
本稿では, 決定変換器のオンラインファインタニングを理論的に解析し, オンラインファインタニングプロセスにおいて, 期待されるリターン・ツー・ゴー(RTG)からかけ離れているリターン・ツー・ゴー(RTG)について述べる。
しかし、この問題は値関数と標準RLアルゴリズムの利点によく適応している。
分析の結果,ODTの微調整プロセスにTD3勾配を加えるだけでODTのオンライン微調整性能が向上することが判明した。
これらの知見は、決定変換器をさらに改善するための新しい方向を提供する。
関連論文リスト
- Maximum-Entropy Regularized Decision Transformer with Reward Relabelling for Dynamic Recommendation [17.750449033873036]
オフラインRLRS (EDT4Rec) のためのリワードラベル付き最大エントロピー拡張決定変換器 (Max-Entropy enhanced Decision Transformer) という新しい手法を提案する。
我々のアプローチは、最大エントロピー視点から始まり、最大エントロピー強化探査戦略の開発に繋がる。
モデルが準最適軌道を縫合する能力を増大させるため,一意の報酬緩和手法を取り入れた。
論文 参考訳(メタデータ) (2024-06-02T12:21:10Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - A Survey on Transformers in Reinforcement Learning [66.23773284875843]
Transformer は NLP と CV において支配的なニューラルネットワークアーキテクチャと見なされている。
近年、強化学習(RL)分野においてトランスフォーマーの使用が急増しているが、RLの性質によってもたらされるユニークな設計選択と課題に直面している。
本稿では,RLにおけるトランスフォーマーの利用の動機と進歩を体系的にレビューし,既存の作業の分類を提供し,各サブフィールドについて議論し,今後の展望を要約する。
論文 参考訳(メタデータ) (2023-01-08T14:04:26Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Online Decision Transformer [30.54774566089644]
オフライン強化学習(RL)はシーケンスモデリング問題として定式化することができる。
Online Decision Transformers (ODT) は、オフライン事前トレーニングとオンライン微調整をブレンドしたシーケンスモデリングに基づくRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-11T13:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。