論文の概要: Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality
- arxiv url: http://arxiv.org/abs/2206.04921v1
- Date: Fri, 10 Jun 2022 07:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 12:12:47.765376
- Title: Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality
- Title(参考訳): オフライン確率的最短経路:学習、評価、最適性に向けて
- Authors: Ming Yin, Wenjing Chen, Mengdi Wang and Yu-Xiang Wang
- Abstract要約: 本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
- 参考スコア(独自算出の注目度): 57.91411772725183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-oriented Reinforcement Learning, where the agent needs to reach the goal
state while simultaneously minimizing the cost, has received significant
attention in real-world applications. Its theoretical formulation, stochastic
shortest path (SSP), has been intensively researched in the online setting.
Nevertheless, it remains understudied when such an online interaction is
prohibited and only historical data is provided. In this paper, we consider the
offline stochastic shortest path problem when the state space and the action
space are finite. We design the simple value iteration-based algorithms for
tackling both offline policy evaluation (OPE) and offline policy learning
tasks. Notably, our analysis of these simple algorithms yields strong
instance-dependent bounds which can imply worst-case bounds that are
near-minimax optimal. We hope our study could help illuminate the fundamental
statistical limits of the offline SSP problem and motivate further studies
beyond the scope of current consideration.
- Abstract(参考訳): 目標指向強化学習(Goal-oriented Reinforcement Learning)では,エージェントが目標状態に到達すると同時に,コストを最小化する。
その理論的定式化であるstochastic shortest path (ssp)は、オンライン環境で集中的に研究されている。
それにもかかわらず、そのようなオンラインインタラクションが禁止され、歴史的データのみが提供される時期は未定である。
本稿では,状態空間と動作空間が有限である場合,オフライン確率的最短経路問題を考える。
我々は、オフラインポリシー評価(ope)とオフラインポリシー学習タスクの両方に取り組むための単純な価値イテレーションベースのアルゴリズムを設計する。
特に、これらの単純なアルゴリズムの解析は、極小に近い最悪のケース境界を示す強いインスタンス依存境界をもたらす。
本研究は,オフラインssp問題の基本的な統計的な限界を照らし,現在の考察の範囲を超えてさらなる研究を動機付けることを期待する。
関連論文リスト
- Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - State-Constrained Offline Reinforcement Learning [9.38848713730931]
そこで我々は,Emphstate-Constrained offline reinforcement learningという新しいフレームワークを紹介した。
我々のフレームワークは学習可能性を大幅に向上させ、過去の制限を減らします。
また、D4RLベンチマークデータセットでパフォーマンス駆動のディープラーニングアルゴリズムであるStaCQも導入しています。
論文 参考訳(メタデータ) (2024-05-23T09:50:04Z) - Trajectory-Oriented Policy Optimization with Sparse Rewards [2.9602904918952695]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文 参考訳(メタデータ) (2024-01-04T12:21:01Z) - Goal-conditioned Offline Reinforcement Learning through State Space Partitioning [9.38848713730931]
オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。
我々は,その利点にもかかわらず,分散シフトやマルチモダリティ問題を完全に解決するには,このアプローチは依然として不十分である,と論じる。
本稿では,帰納的バイアスの新たな源となる相補的優位性に基づく重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T14:52:53Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation [33.37672297925897]
オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
論文 参考訳(メタデータ) (2022-03-08T17:52:57Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。