論文の概要: Reinformer: Max-Return Sequence Modeling for offline RL
- arxiv url: http://arxiv.org/abs/2405.08740v1
- Date: Tue, 14 May 2024 16:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:28:19.842450
- Title: Reinformer: Max-Return Sequence Modeling for offline RL
- Title(参考訳): Reinformer: オフラインRLのための最大戻りシーケンスモデリング
- Authors: Zifeng Zhuang, Dengyun Peng, jinxin Liu, Ziqi Zhang, Donglin Wang,
- Abstract要約: オフライン強化学習(英語: offline reinforcement learning, RL)は、リターン、ゴール、将来の軌跡を含む後視情報に基づくシーケンスモデリングとして定式化されている。
この見落としは、準最適データから学習するシーケンスモデルに影響を与える軌道縫合能力の欠如に直接繋がる。
本稿では,戻り値の最大化という目標を既存のシーケンスモデルに統合する,最大復帰シーケンスモデリングの概念を導入する。
- 参考スコア(独自算出の注目度): 28.836172521538526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a data-driven paradigm, offline reinforcement learning (RL) has been formulated as sequence modeling that conditions on the hindsight information including returns, goal or future trajectory. Although promising, this supervised paradigm overlooks the core objective of RL that maximizes the return. This overlook directly leads to the lack of trajectory stitching capability that affects the sequence model learning from sub-optimal data. In this work, we introduce the concept of max-return sequence modeling which integrates the goal of maximizing returns into existing sequence models. We propose Reinforced Transformer (Reinformer), indicating the sequence model is reinforced by the RL objective. Reinformer additionally incorporates the objective of maximizing returns in the training phase, aiming to predict the maximum future return within the distribution. During inference, this in-distribution maximum return will guide the selection of optimal actions. Empirically, Reinformer is competitive with classical RL methods on the D4RL benchmark and outperforms state-of-the-art sequence model particularly in trajectory stitching ability. Code is public at \url{https://github.com/Dragon-Zhuang/Reinformer}.
- Abstract(参考訳): データ駆動型パラダイムとして、オフライン強化学習(RL)は、リターン、ゴール、将来の軌道を含む後見情報に基づく条件をシーケンスモデリングとして定式化されている。
有望ではあるが、この教師付きパラダイムはリターンを最大化するRLの中核的な目的を見落としている。
この見落としは、準最適データから学習するシーケンスモデルに影響を与える軌道縫合能力の欠如に直接繋がる。
そこで本研究では,戻り値の最大化という目標を既存シーケンスモデルに組み込む,最大復帰シーケンスモデリングの概念を導入する。
本稿では,RLの目的によってシーケンスモデルが強化されていることを示すReinforced Transformer(Reinformer)を提案する。
Reinformerはまた、トレーニングフェーズにおけるリターンの最大化という目的も取り入れており、ディストリビューション内での最大将来のリターンを予測することを目的としている。
推論中、この分布内最大戻り値は最適なアクションの選択を導く。
実証的には、ReinformerはD4RLベンチマークの古典的なRL手法と競合し、特に軌道縫合能力において最先端のシーケンスモデルより優れている。
コードは \url{https://github.com/Dragon-Zhuang/Reinformer} で公開されている。
関連論文リスト
- Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning [6.345851712811528]
本稿では,長期タスク性能を向上させる新しいモデルベースオフラインRL手法であるLow expectile Q-learning(LEQ)を提案する。
実験の結果,LEQ は従来のモデルベースオフライン RL 手法よりも長軸タスクの方が有意に優れていた。
LEQはNeoRLベンチマークとD4RL MuJoCo Gymタスクにおける最先端のモデルベースおよびモデルフリーのオフラインRLメソッドに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。
本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:16:07Z) - RePreM: Representation Pre-training with Masked Model for Reinforcement
Learning [28.63696288537304]
本稿では,RL(RePreM)における事前学習のためのマスク付きモデルを提案し,トランスフォーマブロックと組み合わさったエンコーダを訓練して,軌道中のマスク状態や動作を予測する。
RePreMはデータセットのサイズ、データセットの品質、エンコーダのスケールとよく一致しており、大きなRLモデルに対するその可能性を示している。
論文 参考訳(メタデータ) (2023-03-03T02:04:14Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。