論文の概要: Online Decision Transformer
- arxiv url: http://arxiv.org/abs/2202.05607v1
- Date: Fri, 11 Feb 2022 13:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 23:44:17.786407
- Title: Online Decision Transformer
- Title(参考訳): オンライン意思決定変換器
- Authors: Qinqing Zheng, Amy Zhang, Aditya Grover
- Abstract要約: オフライン強化学習(RL)はシーケンスモデリング問題として定式化することができる。
Online Decision Transformers (ODT) は、オフライン事前トレーニングとオンライン微調整をブレンドしたシーケンスモデリングに基づくRLアルゴリズムである。
- 参考スコア(独自算出の注目度): 30.54774566089644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that offline reinforcement learning (RL) can be
formulated as a sequence modeling problem (Chen et al., 2021; Janner et al.,
2021) and solved via approaches similar to large-scale language modeling.
However, any practical instantiation of RL also involves an online component,
where policies pretrained on passive offline datasets are finetuned via
taskspecific interactions with the environment. We propose Online Decision
Transformers (ODT), an RL algorithm based on sequence modeling that blends
offline pretraining with online finetuning in a unified framework. Our
framework uses sequence-level entropy regularizers in conjunction with
autoregressive modeling objectives for sample-efficient exploration and
finetuning. Empirically, we show that ODT is competitive with the
state-of-the-art in absolute performance on the D4RL benchmark but shows much
more significant gains during the finetuning procedure.
- Abstract(参考訳): 近年の研究では、オフライン強化学習(RL)がシーケンスモデリング問題(Chen et al., 2021; Janner et al., 2021)として定式化され、大規模言語モデリングに類似したアプローチで解かれることが示されている。
しかし、RLの実用的なインスタンス化にはオンラインコンポーネントも含まれており、受動的オフラインデータセットで事前訓練されたポリシーは、タスク固有の環境とのインタラクションを通じて微調整される。
オフライン事前学習とオンライン微調整を統合フレームワークでブレンドするシーケンスモデリングに基づくRLアルゴリズムであるオンライン決定変換器(ODT)を提案する。
本フレームワークは, サンプル効率の高い探索および微調整のための自己回帰モデリング目的と合わせて, シーケンスレベルのエントロピー正規化器を用いる。
実験により,ODTはD4RLベンチマークの絶対性能において最先端技術と競合するが,ファインタニング処理においてより顕著な利得を示す。
関連論文リスト
- Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。