論文の概要: Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality
- arxiv url: http://arxiv.org/abs/2212.09900v1
- Date: Mon, 19 Dec 2022 22:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:56:16.719522
- Title: Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality
- Title(参考訳): 政策学習の「無」重複:ペシミズムと経験的バーンスタインの不平等の一般化
- Authors: Ying Jin, Zhimei Ren, Zhuoran Yang, Zhaoran Wang
- Abstract要約: オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 107.84979976896912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies offline policy learning, which aims at utilizing
observations collected a priori (from either fixed or adaptively evolving
behavior policies) to learn an optimal individualized decision rule that
achieves the best overall outcomes for a given population. Existing policy
learning methods rely on a uniform overlap assumption, i.e., the propensities
of exploring all actions for all individual characteristics are lower bounded
in the offline dataset; put differently, the performance of the existing
methods depends on the worst-case propensity in the offline dataset. As one has
no control over the data collection process, this assumption can be unrealistic
in many situations, especially when the behavior policies are allowed to evolve
over time with diminishing propensities for certain actions.
In this paper, we propose a new algorithm that optimizes lower confidence
bounds (LCBs) -- instead of point estimates -- of the policy values. The LCBs
are constructed using knowledge of the behavior policies for collecting the
offline data. Without assuming any uniform overlap condition, we establish a
data-dependent upper bound for the suboptimality of our algorithm, which only
depends on (i) the overlap for the optimal policy, and (ii) the complexity of
the policy class we optimize over. As an implication, for adaptively collected
data, we ensure efficient policy learning as long as the propensities for
optimal actions are lower bounded over time, while those for suboptimal ones
are allowed to diminish arbitrarily fast. In our theoretical analysis, we
develop a new self-normalized type concentration inequality for
inverse-propensity-weighting estimators, generalizing the well-known empirical
Bernstein's inequality to unbounded and non-i.i.d. data.
- Abstract(参考訳): 本研究は,行動政策を固定的あるいは適応的に発展させる)事前の観測結果を活用したオフライン政策学習を行い,与えられた集団の最良の結果を達成する最適な個別化決定ルールを学習することを目的とする。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットのバウンダリが低く、異なることに、既存の手法のパフォーマンスは、オフラインデータセットの最悪のケースの妥当性に依存する。
データ収集プロセスをコントロールすることができないため、この仮定は多くの状況において非現実的なものとなり得る。
本稿では,ポリシー値の点推定ではなく,低信頼境界(lcbs)を最適化する新しいアルゴリズムを提案する。
lcbはオフラインデータ収集のための行動ポリシーの知識を用いて構築される。
均一な重なり条件を仮定せずに、我々はアルゴリズムの準最適性に対するデータ依存上界を確立する。
(i)最適方針の重なり
(ii)最適化したポリシークラスの複雑さ。
すなわち、適応的に収集されたデータに対して、最適動作の確率が時間とともに低い限り、効率的なポリシー学習を確保する一方、最適動作の確率は任意に高速に減少する。
理論解析では, 経験的バーンスタインの不等式を非有界データと非i.i.d.データに一般化し, 自己正規化型濃度不等式を開発した。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。