論文の概要: Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees
- arxiv url: http://arxiv.org/abs/2510.04088v1
- Date: Sun, 05 Oct 2025 08:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.449367
- Title: Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees
- Title(参考訳): 大規模状態空間におけるオフライン強化学習:アルゴリズムと保証
- Authors: Nan Jiang, Tengyang Xie,
- Abstract要約: 本稿では,大規模状態空間におけるオフライン強化学習の理論を紹介する。
良い政策は、環境とのオンラインインタラクションなしで歴史的なデータから学習される。
- 参考スコア(独自算出の注目度): 14.67418023341291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article introduces the theory of offline reinforcement learning in large state spaces, where good policies are learned from historical data without online interactions with the environment. Key concepts introduced include expressivity assumptions on function approximation (e.g., Bellman completeness vs. realizability) and data coverage (e.g., all-policy vs. single-policy coverage). A rich landscape of algorithms and results is described, depending on the assumptions one is willing to make and the sample and computational complexity guarantees one wishes to achieve. We also discuss open questions and connections to adjacent areas.
- Abstract(参考訳): 本稿は, 環境とのオンラインインタラクションを伴わずに, 歴史的データから適切な政策を学習する大規模国家空間におけるオフライン強化学習の理論について紹介する。
導入された主な概念は、関数近似(例えば、ベルマン完全性対実現可能性)とデータカバレッジ(例えば、全政治対単一政治カバレッジ)に関する表現性仮定である。
アルゴリズムと結果の豊かなランドスケープが述べられており、ある仮定が望まれていることと、そのサンプルと計算の複雑さが達成したいことを保証している。
また、隣接する地域へのオープンな質問やつながりについても論じる。
関連論文リスト
- Agnostic Reinforcement Learning: Foundations and Algorithms [4.07926531936425]
この論文は、学習理論の観点から関数近似を伴うRLの統計的複雑さを厳密に検証する。
学習者は与えられたクラス$Pi$の最良のポリシーを見つけようとするが、$Pi$が基礎となるタスクに対して最適なポリシーを含んでいるという保証はない。
この包括的枠組みの中で、理論的な保証付き新しい学習アルゴリズムを設計し、任意のアルゴリズムの基本性能境界を特徴づける。
論文 参考訳(メタデータ) (2025-06-02T17:12:24Z) - Active Coverage for PAC Reinforcement Learning [24.256960622176305]
本稿では,エピソードマルコフ決定過程(MDP)におけるアクティブカバレッジの問題を定式化する。
我々は,異なるPAC RLタスクを解くために,CovGameをビルディングブロックとして使用できることを示す。
論文 参考訳(メタデータ) (2023-06-23T16:39:37Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。