論文の概要: Expressive Modeling Is Insufficient for Offline RL: A Tractable
Inference Perspective
- arxiv url: http://arxiv.org/abs/2311.00094v1
- Date: Tue, 31 Oct 2023 19:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:57:45.757000
- Title: Expressive Modeling Is Insufficient for Offline RL: A Tractable
Inference Perspective
- Title(参考訳): オフラインRLでは表現的モデリングが不十分である:トラクタブル推論の視点
- Authors: Xuejie Liu, Anji Liu, Guy Van den Broeck and Yitao Liang
- Abstract要約: オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,各種クエリの正確かつ効率的な応答能力であるトラクタビリティが,同様に重要な役割を担っていることを強調する。
- 参考スコア(独自算出の注目度): 39.94270135913932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular paradigm for offline Reinforcement Learning (RL) tasks is to first
fit the offline trajectories to a sequence model, and then prompt the model for
actions that lead to high expected return. While a common consensus is that
more expressive sequence models imply better performance, this paper highlights
that tractability, the ability to exactly and efficiently answer various
probabilistic queries, plays an equally important role. Specifically, due to
the fundamental stochasticity from the offline data-collection policies and the
environment dynamics, highly non-trivial conditional/constrained generation is
required to elicit rewarding actions. While it is still possible to approximate
such queries, we observe that such crude estimates significantly undermine the
benefits brought by expressive sequence models. To overcome this problem, this
paper proposes Trifle (Tractable Inference for Offline RL), which leverages
modern Tractable Probabilistic Models (TPMs) to bridge the gap between good
sequence models and high expected returns at evaluation time. Empirically,
Trifle achieves the most state-of-the-art scores in 9 Gym-MuJoCo benchmarks
against strong baselines. Further, owing to its tractability, Trifle
significantly outperforms prior approaches in stochastic environments and safe
RL tasks (e.g. with action constraints) with minimum algorithmic modifications.
- Abstract(参考訳): オフライン強化学習(rl)タスクの一般的なパラダイムは、まずオフライントラジェクタをシーケンスモデルに適合させ、次に期待されたリターンにつながるアクションをモデルに促すことである。
一般的なコンセンサスとして、より表現力のあるシーケンスモデルの方がパフォーマンスの向上を示唆するが、この論文は、トラクタビリティ、様々な確率的クエリを正確にかつ効率的に答える能力が、同様に重要な役割を担っていることを強調している。
具体的には、オフラインデータ収集ポリシーと環境ダイナミクスの基本的な確率性から、報酬行為を誘発するために非常に非自明な条件付き/制約付き生成が必要となる。
このようなクエリを近似することは依然として可能であるが、そのような粗い推定が表現的シーケンスモデルによる利点を著しく損なうことを観察する。
そこで本研究では,Trifle (Tractable Inference for Offline RL) を提案する。このTrifle (Tractable Inference for Offline RL) は,Tractable Probabilistic Models (TPM) を利用して,良好なシーケンスモデルと高い予測リターンとのギャップを橋渡しする。
経験上、trifleは9つのジム・ムジョコベンチマークにおいて、強力なベースラインに対して最先端のスコアを達成している。
さらに、そのトラクタビリティのため、Trifleは確率的な環境や安全なRLタスク(例えば、アクション制約)において、最小限のアルゴリズム修正で、従来のアプローチよりも大幅に優れている。
関連論文リスト
- Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning [6.345851712811528]
本稿では,長期タスク性能を向上させる新しいモデルベースオフラインRL手法であるLow expectile Q-learning(LEQ)を提案する。
実験の結果,LEQ は従来のモデルベースオフライン RL 手法よりも長軸タスクの方が有意に優れていた。
LEQはNeoRLベンチマークとD4RL MuJoCo Gymタスクにおける最先端のモデルベースおよびモデルフリーのオフラインRLメソッドに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。