論文の概要: Offline Policy Optimization with Eligible Actions
- arxiv url: http://arxiv.org/abs/2207.00632v1
- Date: Fri, 1 Jul 2022 19:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:45:55.525214
- Title: Offline Policy Optimization with Eligible Actions
- Title(参考訳): 信頼行動を用いたオフライン政策最適化
- Authors: Yao Liu, Yannis Flet-Berliac, Emma Brunskill
- Abstract要約: オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 34.4530766779594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline policy optimization could have a large impact on many real-world
decision-making problems, as online learning may be infeasible in many
applications. Importance sampling and its variants are a commonly used type of
estimator in offline policy evaluation, and such estimators typically do not
require assumptions on the properties and representational capabilities of
value function or decision process model function classes. In this paper, we
identify an important overfitting phenomenon in optimizing the importance
weighted return, in which it may be possible for the learned policy to
essentially avoid making aligned decisions for part of the initial state space.
We propose an algorithm to avoid this overfitting through a new
per-state-neighborhood normalization constraint, and provide a theoretical
justification of the proposed algorithm. We also show the limitations of
previous attempts to this approach. We test our algorithm in a
healthcare-inspired simulator, a logged dataset collected from real hospitals
and continuous control tasks. These experiments show the proposed method yields
less overfitting and better test performance compared to state-of-the-art batch
reinforcement learning algorithms.
- Abstract(参考訳): オフラインポリシー最適化は、オンライン学習が多くのアプリケーションで実現できないため、現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に用いられるタイプの推定器であり、そのような推定器は通常、値関数や決定プロセスモデル関数のクラスの性質や表現能力に関する仮定を必要としない。
本稿では,重要度重み付けされたリターンを最適化する上で重要な過度なオーバーフィッティング現象を特定する。
そこで本稿では, 州ごとの正規化制約により, この過適合を回避するアルゴリズムを提案し, 提案アルゴリズムを理論的に正当化する。
このアプローチに対する以前の試みの制限も示します。
当社のアルゴリズムは、医療にインスパイアされたシミュレーター、実際の病院から収集したログデータセット、継続的な制御タスクでテストします。
提案手法は,最先端のバッチ強化学習アルゴリズムと比較して,オーバーフィッティングやテスト性能の向上が期待できる。
関連論文リスト
- Bayesian Safe Policy Learning with Chance Constrained Optimization:
Application to Military Security Assessment during the Vietnam War [0.0]
ベトナム戦争で採用されたセキュリティアセスメントアルゴリズムを改善できるかどうかを検討する。
第一に、既存のアルゴリズムよりも悪い結果をもたらすリスクを特徴づけ、制御することが不可欠である。
本稿では,後続のACRiskを制御しながら,後続の期待値を最大化するベイズ政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T20:59:50Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Self-adaptive algorithms for quasiconvex programming and applications to
machine learning [0.0]
凸線探索技術や,軽微な仮定の下での汎用的アプローチを含まない,自己適応的なステップサイズ戦略を提案する。
提案手法は,いくつかの計算例から予備的な結果によって検証される。
大規模問題に対する提案手法の有効性を実証するため,機械学習実験に適用した。
論文 参考訳(メタデータ) (2022-12-13T05:30:29Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。