論文の概要: Distributionally Robust Offline Reinforcement Learning with Linear
Function Approximation
- arxiv url: http://arxiv.org/abs/2209.06620v1
- Date: Wed, 14 Sep 2022 13:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:45:07.616049
- Title: Distributionally Robust Offline Reinforcement Learning with Linear
Function Approximation
- Title(参考訳): 線形関数近似を用いた分布ロバストオフライン強化学習
- Authors: Xiaoteng Ma, Zhipeng Liang, Li Xia, Jiheng Zhang, Jose Blanchet,
Mingwen Liu, Qianchuan Zhao and Zhengyuan Zhou
- Abstract要約: 我々は、ソース環境から得られた履歴データを用いてRLエージェントを学習し、摂動環境において良好に動作するように最適化する。
我々は、線形関数次元$d$に応じて、我々のアルゴリズムが$O(sqrtK)$の亜最適性を達成できることを証明した。
- 参考スコア(独自算出の注目度): 16.128778192359327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Among the reasons that hinder the application of reinforcement learning (RL)
to real-world problems, two factors are critical: limited data and the mismatch
of the testing environment compared to training one. In this paper, we attempt
to address these issues simultaneously with the problem setup of
distributionally robust offline RL. Particularly, we learn an RL agent with the
historical data obtained from the source environment and optimize it to perform
well in the perturbed one. Moreover, we consider the linear function
approximation to apply the algorithm to large-scale problems. We prove our
algorithm can achieve the suboptimality of $O(1/\sqrt{K})$ depending on the
linear function dimension $d$, which seems to be the first result with sample
complexity guarantee in this setting. Diverse experiments are conducted to
demonstrate our theoretical findings, showing the superiority of our algorithm
against the non-robust one.
- Abstract(参考訳): 現実世界の問題に対する強化学習(rl)の適用を妨げる理由として,データ制限とテスト環境のミスマッチという2つの要因が重要である。
本稿では,分散ロバストなオフラインrlの問題設定と同時に,これらの問題に対処することを試みる。
特に、ソース環境から得られた履歴データを用いてRLエージェントを学習し、摂動環境において良好に動作するように最適化する。
さらに,本アルゴリズムを大規模問題に適用するために線形関数近似を考える。
我々のアルゴリズムは、線形関数次元 $d$ に依存して、$o(1/\sqrt{k})$ の部分最適化性を達成できることを証明します。
提案手法が非ロバストアルゴリズムよりも優れていることを示すため,様々な実験を行った。
関連論文リスト
- Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Offline Reinforcement Learning with Realizability and Single-policy
Concentrability [40.15976281104956]
オフライン強化学習のサンプル効率保証は、しばしば関数クラスとデータカバレッジの両方に強い仮定に依存する。
本稿では,2つの変数をオフラインデータに対してオフライン関数を用いてモデル化する,原始双対MDPに基づく単純なアルゴリズムを解析する。
論文 参考訳(メタデータ) (2022-02-09T18:51:24Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。