論文の概要: Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality
- arxiv url: http://arxiv.org/abs/2212.09900v1
- Date: Mon, 19 Dec 2022 22:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:56:16.719522
- Title: Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality
- Title(参考訳): 政策学習の「無」重複:ペシミズムと経験的バーンスタインの不平等の一般化
- Authors: Ying Jin, Zhimei Ren, Zhuoran Yang, Zhaoran Wang
- Abstract要約: オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 107.84979976896912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies offline policy learning, which aims at utilizing
observations collected a priori (from either fixed or adaptively evolving
behavior policies) to learn an optimal individualized decision rule that
achieves the best overall outcomes for a given population. Existing policy
learning methods rely on a uniform overlap assumption, i.e., the propensities
of exploring all actions for all individual characteristics are lower bounded
in the offline dataset; put differently, the performance of the existing
methods depends on the worst-case propensity in the offline dataset. As one has
no control over the data collection process, this assumption can be unrealistic
in many situations, especially when the behavior policies are allowed to evolve
over time with diminishing propensities for certain actions.
In this paper, we propose a new algorithm that optimizes lower confidence
bounds (LCBs) -- instead of point estimates -- of the policy values. The LCBs
are constructed using knowledge of the behavior policies for collecting the
offline data. Without assuming any uniform overlap condition, we establish a
data-dependent upper bound for the suboptimality of our algorithm, which only
depends on (i) the overlap for the optimal policy, and (ii) the complexity of
the policy class we optimize over. As an implication, for adaptively collected
data, we ensure efficient policy learning as long as the propensities for
optimal actions are lower bounded over time, while those for suboptimal ones
are allowed to diminish arbitrarily fast. In our theoretical analysis, we
develop a new self-normalized type concentration inequality for
inverse-propensity-weighting estimators, generalizing the well-known empirical
Bernstein's inequality to unbounded and non-i.i.d. data.
- Abstract(参考訳): 本研究は,行動政策を固定的あるいは適応的に発展させる)事前の観測結果を活用したオフライン政策学習を行い,与えられた集団の最良の結果を達成する最適な個別化決定ルールを学習することを目的とする。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットのバウンダリが低く、異なることに、既存の手法のパフォーマンスは、オフラインデータセットの最悪のケースの妥当性に依存する。
データ収集プロセスをコントロールすることができないため、この仮定は多くの状況において非現実的なものとなり得る。
本稿では,ポリシー値の点推定ではなく,低信頼境界(lcbs)を最適化する新しいアルゴリズムを提案する。
lcbはオフラインデータ収集のための行動ポリシーの知識を用いて構築される。
均一な重なり条件を仮定せずに、我々はアルゴリズムの準最適性に対するデータ依存上界を確立する。
(i)最適方針の重なり
(ii)最適化したポリシークラスの複雑さ。
すなわち、適応的に収集されたデータに対して、最適動作の確率が時間とともに低い限り、効率的なポリシー学習を確保する一方、最適動作の確率は任意に高速に減少する。
理論解析では, 経験的バーンスタインの不等式を非有界データと非i.i.d.データに一般化し, 自己正規化型濃度不等式を開発した。
関連論文リスト
- Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - The Importance of Pessimism in Fixed-Dataset Policy Optimization [32.22700716592194]
我々は、固定データセットポリシー最適化アルゴリズムの戻り値に関する最悪の保証について検討する。
ナイーブなアプローチでは、誤った値過大評価の可能性は、困難で満足な要求に繋がる。
データセットがすべてのポリシに通知されない場合でも,悲観的アルゴリズムが優れたパフォーマンスを達成できる理由を示す。
論文 参考訳(メタデータ) (2020-09-15T00:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。