論文の概要: Offline Policy Optimization with Eligible Actions
- arxiv url: http://arxiv.org/abs/2207.00632v1
- Date: Fri, 1 Jul 2022 19:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:45:55.525214
- Title: Offline Policy Optimization with Eligible Actions
- Title(参考訳): 信頼行動を用いたオフライン政策最適化
- Authors: Yao Liu, Yannis Flet-Berliac, Emma Brunskill
- Abstract要約: オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 34.4530766779594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline policy optimization could have a large impact on many real-world
decision-making problems, as online learning may be infeasible in many
applications. Importance sampling and its variants are a commonly used type of
estimator in offline policy evaluation, and such estimators typically do not
require assumptions on the properties and representational capabilities of
value function or decision process model function classes. In this paper, we
identify an important overfitting phenomenon in optimizing the importance
weighted return, in which it may be possible for the learned policy to
essentially avoid making aligned decisions for part of the initial state space.
We propose an algorithm to avoid this overfitting through a new
per-state-neighborhood normalization constraint, and provide a theoretical
justification of the proposed algorithm. We also show the limitations of
previous attempts to this approach. We test our algorithm in a
healthcare-inspired simulator, a logged dataset collected from real hospitals
and continuous control tasks. These experiments show the proposed method yields
less overfitting and better test performance compared to state-of-the-art batch
reinforcement learning algorithms.
- Abstract(参考訳): オフラインポリシー最適化は、オンライン学習が多くのアプリケーションで実現できないため、現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に用いられるタイプの推定器であり、そのような推定器は通常、値関数や決定プロセスモデル関数のクラスの性質や表現能力に関する仮定を必要としない。
本稿では,重要度重み付けされたリターンを最適化する上で重要な過度なオーバーフィッティング現象を特定する。
そこで本稿では, 州ごとの正規化制約により, この過適合を回避するアルゴリズムを提案し, 提案アルゴリズムを理論的に正当化する。
このアプローチに対する以前の試みの制限も示します。
当社のアルゴリズムは、医療にインスパイアされたシミュレーター、実際の病院から収集したログデータセット、継続的な制御タスクでテストします。
提案手法は,最先端のバッチ強化学習アルゴリズムと比較して,オーバーフィッティングやテスト性能の向上が期待できる。
関連論文リスト
- On the Sample Complexity of a Policy Gradient Algorithm with Occupancy Approximation for General Utility Reinforcement Learning [23.623705771223303]
最大誤差推定(MLE)を用いた関数近似クラス内の占有度を近似する手法を提案する。
PG-OMAのサンプル複雑性解析により,我々の占有度測定誤差は,状態作用空間のサイズではなく,関数近似クラスの寸法に比例してしかスケールしないことを示した。
論文 参考訳(メタデータ) (2024-10-05T10:24:07Z) - Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Self-adaptive algorithms for quasiconvex programming and applications to
machine learning [0.0]
凸線探索技術や,軽微な仮定の下での汎用的アプローチを含まない,自己適応的なステップサイズ戦略を提案する。
提案手法は,いくつかの計算例から予備的な結果によって検証される。
大規模問題に対する提案手法の有効性を実証するため,機械学習実験に適用した。
論文 参考訳(メタデータ) (2022-12-13T05:30:29Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。