論文の概要: Offline RL with Observation Histories: Analyzing and Improving Sample
Complexity
- arxiv url: http://arxiv.org/abs/2310.20663v1
- Date: Tue, 31 Oct 2023 17:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 13:51:17.517650
- Title: Offline RL with Observation Histories: Analyzing and Improving Sample
Complexity
- Title(参考訳): 観測履歴を持つオフラインRL:サンプル複雑度の解析と改善
- Authors: Joey Hong and Anca Dragan and Sergey Levine
- Abstract要約: オフライン強化学習は、最適な実験のみからなるデータセットから、より最適な振る舞いを合成することができる。
観測履歴を基準とした標準オフラインRLアルゴリズムは,サンプルの複雑さに悩まされていることを示す。
オフラインのRLは、この損失を明示的に最適化し、最悪のサンプルの複雑さを軽減できると提案する。
- 参考スコア(独自算出の注目度): 70.7884839812069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) can in principle synthesize more optimal
behavior from a dataset consisting only of suboptimal trials. One way that this
can happen is by "stitching" together the best parts of otherwise suboptimal
trajectories that overlap on similar states, to create new behaviors where each
individual state is in-distribution, but the overall returns are higher.
However, in many interesting and complex applications, such as autonomous
navigation and dialogue systems, the state is partially observed. Even worse,
the state representation is unknown or not easy to define. In such cases,
policies and value functions are often conditioned on observation histories
instead of states. In these cases, it is not clear if the same kind of
"stitching" is feasible at the level of observation histories, since two
different trajectories would always have different histories, and thus "similar
states" that might lead to effective stitching cannot be leveraged.
Theoretically, we show that standard offline RL algorithms conditioned on
observation histories suffer from poor sample complexity, in accordance with
the above intuition. We then identify sufficient conditions under which offline
RL can still be efficient -- intuitively, it needs to learn a compact
representation of history comprising only features relevant for action
selection. We introduce a bisimulation loss that captures the extent to which
this happens, and propose that offline RL can explicitly optimize this loss to
aid worst-case sample complexity. Empirically, we show that across a variety of
tasks either our proposed loss improves performance, or the value of this loss
is already minimized as a consequence of standard offline RL, indicating that
it correlates well with good performance.
- Abstract(参考訳): オフライン強化学習(RL)は原則として、最適な実験のみからなるデータセットからより最適な振る舞いを合成することができる。
これを実現する方法の1つは、同じ状態に重なり合う場合の最適でない軌道の最良の部分を「ステッチ」することで、個々の状態が分配されていないが、全体的なリターンは高い。
しかし、自律ナビゲーションや対話システムなど、多くの興味深い複雑なアプリケーションでは、状態が部分的に観察される。
さらに悪いことに、状態表現は未知あるいは定義が困難である。
このような場合、政策と価値関数はしばしば状態の代わりに観察履歴に基づいて調整される。
これらの場合、同じ種類の「スティッチング」が観測履歴のレベルで実現可能かどうかは不明であり、2つの異なる軌道は常に異なる歴史を持ち、したがって効果的な縫合につながる可能性のある「類似状態」は利用できない。
理論的には、観測履歴に基づく標準オフラインrlアルゴリズムは、上記の直観に従って、サンプルの複雑さに乏しい。
次に、オフラインRLが依然として効率的であるような十分な条件を特定します -- 直感的には、アクション選択に関連する機能のみを含む歴史のコンパクトな表現を学ぶ必要があります。
我々は,この現象の程度を捉えたバイシミュレーションロスを導入し,オフラインrlはこの損失を明示的に最適化して,最悪のサンプルの複雑性を低減できることを示す。
経験的に、提案する損失がパフォーマンスを向上させるか、あるいはこの損失の値は、標準オフラインrlの結果、すでに最小化されており、優れたパフォーマンスと相関していることを示している。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。