論文の概要: Towards Robust Off-policy Learning for Runtime Uncertainty
- arxiv url: http://arxiv.org/abs/2202.13337v1
- Date: Sun, 27 Feb 2022 10:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 12:02:09.684288
- Title: Towards Robust Off-policy Learning for Runtime Uncertainty
- Title(参考訳): ランタイムの不確実性のための堅牢なオフポリシー学習に向けて
- Authors: Da Xu, Yuting Ye, Chuanwei Ruan, Bo Yang
- Abstract要約: オフラインの学習は、オンライン展開の前にポリシーを最適化し、評価する上で重要な役割を担います。
実行時不確実性は、異常とまれな性質のため、ログデータから学べない。
本稿では, 逆確率スコア法, 報酬モデル法, 二重頑健な3つの非政治学習法に, 実行時不確かさの頑健さをもたらす。
- 参考スコア(独自算出の注目度): 28.425951919439783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy learning plays a pivotal role in optimizing and evaluating
policies prior to the online deployment. However, during the real-time serving,
we observe varieties of interventions and constraints that cause inconsistency
between the online and offline settings, which we summarize and term as runtime
uncertainty. Such uncertainty cannot be learned from the logged data due to its
abnormality and rareness nature. To assert a certain level of robustness, we
perturb the off-policy estimators along an adversarial direction in view of the
runtime uncertainty. It allows the resulting estimators to be robust not only
to observed but also unexpected runtime uncertainties. Leveraging this idea, we
bring runtime-uncertainty robustness to three major off-policy learning
methods: the inverse propensity score method, reward-model method, and doubly
robust method. We theoretically justify the robustness of our methods to
runtime uncertainty, and demonstrate their effectiveness using both the
simulation and the real-world online experiments.
- Abstract(参考訳): オフライン学習は、オンライン展開前にポリシーを最適化し、評価する上で重要な役割を果たす。
しかし、リアルタイムサービスでは、オンライン設定とオフライン設定の一貫性を損なう様々な介入や制約を観察し、それをランタイムの不確実性と呼ぶ。
このような不確実性は、異常と稀な性質のため、ログデータから学べない。
一定のレベルのロバスト性を示すために、ランタイムの不確実性の観点から、オフポリティクス推定器を逆方向に沿って摂動させる。
これにより、結果の見積は観測されるだけでなく、予期せぬ実行時の不確実性に対しても堅牢になる。
この考え方を生かして,3つの主要なオフポリシー学習法である逆プロペンシティスコア法,報酬モデル法,二重ロバスト法に実行時不確認ロバスト性をもたらす。
理論上,本手法のランタイムの不確かさに対する頑健さを正当化し,シミュレーションと実世界のオンライン実験の両方を用いてその効果を実証する。
関連論文リスト
- Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - One step closer to unbiased aleatoric uncertainty estimation [71.55174353766289]
そこで本研究では,観測データのアクティブデノイズ化による新しい推定手法を提案する。
幅広い実験を行うことで,提案手法が標準手法よりも実際のデータ不確実性にはるかに近い近似を与えることを示す。
論文 参考訳(メタデータ) (2023-12-16T14:59:11Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning [8.736154600219685]
オンライン学習における政策評価が注目を集めている。
しかし、オンライン環境で生成された依存データのため、このような問題は特に困難である。
本研究では,オンライン学習における最適ポリシーに基づいて,2倍頑健区間推定法(DREAM)を開発した。
論文 参考訳(メタデータ) (2021-10-29T02:38:54Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Deep Learning based Uncertainty Decomposition for Real-time Control [9.067368638784355]
本稿では,ディープラーニングを用いたトレーニングデータの欠如を検出する新しい手法を提案する。
合成および実世界のデータセットに対する既存のアプローチに対する利点を示す。
さらに、シミュレーションされたクアッドコプターにオンラインデータ効率制御を展開させる上で、この不確実性推定の実用性を実証する。
論文 参考訳(メタデータ) (2020-10-06T10:46:27Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Real-Time Uncertainty Estimation in Computer Vision via
Uncertainty-Aware Distribution Distillation [18.712408359052667]
本研究では,事前学習したドロップアウトモデルの条件付き予測分布を学習するための,簡易かつ簡便な蒸留法を提案する。
提案手法の有効性を,意味的セグメンテーションと深さ推定の両方で実証的に検証した。
論文 参考訳(メタデータ) (2020-07-31T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。