論文の概要: Solving Continual Offline Reinforcement Learning with Decision
Transformer
- arxiv url: http://arxiv.org/abs/2401.08478v1
- Date: Tue, 16 Jan 2024 16:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 19:00:03.653020
- Title: Solving Continual Offline Reinforcement Learning with Decision
Transformer
- Title(参考訳): 決定変換器を用いた連続オフライン強化学習の解法
- Authors: Kaixin Huang, Li Shen, Chen Zhao, Chun Yuan, Dacheng Tao
- Abstract要約: 連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
- 参考スコア(独自算出の注目度): 84.32004665413395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous offline reinforcement learning (CORL) combines continuous and
offline reinforcement learning, enabling agents to learn multiple tasks from
static datasets without forgetting prior tasks. However, CORL faces challenges
in balancing stability and plasticity. Existing methods, employing Actor-Critic
structures and experience replay (ER), suffer from distribution shifts, low
efficiency, and weak knowledge-sharing. We aim to investigate whether Decision
Transformer (DT), another offline RL paradigm, can serve as a more suitable
offline continuous learner to address these issues. We first compare AC-based
offline algorithms with DT in the CORL framework. DT offers advantages in
learning efficiency, distribution shift mitigation, and zero-shot
generalization but exacerbates the forgetting problem during supervised
parameter updates. We introduce multi-head DT (MH-DT) and low-rank adaptation
DT (LoRA-DT) to mitigate DT's forgetting problem. MH-DT stores task-specific
knowledge using multiple heads, facilitating knowledge sharing with common
components. It employs distillation and selective rehearsal to enhance current
task learning when a replay buffer is available. In buffer-unavailable
scenarios, LoRA-DT merges less influential weights and fine-tunes DT's decisive
MLP layer to adapt to the current task. Extensive experiments on MoJuCo and
Meta-World benchmarks demonstrate that our methods outperform SOTA CORL
baselines and showcase enhanced learning capabilities and superior memory
efficiency.
- Abstract(参考訳): continuous offline reinforcement learning (corl)は、連続およびオフラインの強化学習を組み合わせることで、エージェントは、事前のタスクを忘れずに、静的データセットから複数のタスクを学習できる。
しかし、corlは安定性と可塑性のバランスが困難である。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を採用した既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は、この問題を解決するために、別のオフラインRLパラダイムであるDecision Transformer(DT)がより適切なオフライン連続学習者として機能するかどうかを検討することを目的とする。
最初に、corlフレームワークでacベースのオフラインアルゴリズムとdtを比較した。
DTは学習効率、分散シフト緩和、ゼロショット一般化の利点を提供するが、教師付きパラメータ更新時の忘れ問題を悪化させる。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
MH-DTは複数のヘッドを使ってタスク固有の知識を格納し、共通コンポーネントとの知識共有を容易にする。
蒸留と選択的リハーサルを使用して、リプレイバッファが利用可能な場合の現在のタスク学習を強化する。
バッファなしのシナリオでは、LoRA-DTは、現在のタスクに適応するために、影響の少ない重みと微調整のMDP層をマージする。
MoJuCoとMeta-Worldベンチマークの大規模な実験により,本手法はSOTA CORLのベースラインを上回り,学習能力の向上とメモリ効率の向上を実証した。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Digital Twin-Assisted Efficient Reinforcement Learning for Edge Task
Scheduling [10.777592783012702]
本稿では,RLの性能と収束性を改善するために,Digital Twin(DT)を用いたRLベースのタスクスケジューリング手法を提案する。
DT支援非同期Qラーニング(DTAQL)とDT支援Qラーニング(DTEQL)という2つのアルゴリズムがタスクスケジューリング決定を行うように設計されている。
論文 参考訳(メタデータ) (2022-08-02T23:26:08Z) - Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence
Model Conquers All StarCraftII Tasks [43.588686040547486]
オンラインの微調整によるオフライン事前トレーニングは研究されておらず、オフラインMARL研究のためのデータセットやベンチマークも利用可能ではない。
オフライン学習に有効なマルチエージェント決定変換器(MADT)のアーキテクチャを提案する。
StarCraft IIのオフラインデータセットで評価すると、MADTは最先端のオフラインRLベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-12-06T08:11:05Z) - Generalized Decision Transformer for Offline Hindsight Information
Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2021-11-19T18:56:13Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。