論文の概要: Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support
- arxiv url: http://arxiv.org/abs/2107.11533v1
- Date: Sat, 24 Jul 2021 05:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 09:58:37.665246
- Title: Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support
- Title(参考訳): オンライン学習とオフライン学習を組み合わせたコンテキストバンディット支援
- Authors: Hung Tran-The, Sunil Gupta, Thanh Nguyen-Tang, Santu Rana, Svetha
Venkatesh
- Abstract要約: 現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
- 参考スコア(独自算出の注目度): 53.11601029040302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address policy learning with logged data in contextual bandits. Current
offline-policy learning algorithms are mostly based on inverse propensity score
(IPS) weighting requiring the logging policy to have \emph{full support} i.e. a
non-zero probability for any context/action of the evaluation policy. However,
many real-world systems do not guarantee such logging policies, especially when
the action space is large and many actions have poor or missing rewards. With
such \emph{support deficiency}, the offline learning fails to find optimal
policies. We propose a novel approach that uses a hybrid of offline learning
with online exploration. The online exploration is used to explore unsupported
actions in the logged data whilst offline learning is used to exploit supported
actions from the logged data avoiding unnecessary explorations. Our approach
determines an optimal policy with theoretical guarantees using the minimal
number of online explorations. We demonstrate our algorithms' effectiveness
empirically on a diverse collection of datasets.
- Abstract(参考訳): 我々は,コンテキストバンディットにおけるログデータを用いたポリシー学習に対処する。
現在のオフライン政治学習アルゴリズムは、主に逆相対性スコア(IPS)重み付けに基づいており、ロギングポリシーは \emph{full support} を必要とする。
評価ポリシーの任意のコンテキスト/アクションに対する非ゼロ確率。
しかし、現実世界のシステムの多くは、特にアクションスペースが大きく、多くのアクションが報酬の不足や不足している場合に、そのようなロギングポリシーを保証しない。
このようなemph{ Support deficiency} では、オフライン学習は最適なポリシーを見つけるのに失敗する。
本稿では,オフライン学習とオンライン探索を組み合わせた新しいアプローチを提案する。
オンライン探索はログデータでサポートされたアクションを探索するために使用され、オフライン学習は不要な探索を避けるためにログデータからサポートされたアクションを利用する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
アルゴリズムの有効性を、さまざまなデータセットで実証的に示します。
関連論文リスト
- Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement
Learning [10.31844915748746]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
主要なオンラインRL探索パラダイムについて検討し、オフライン-オンライン設定でうまく機能するように適応する。
PTGOODは、オンラインの微調整中にエージェントリターンを大幅に改善し、Walkerの10kオンラインステップとHumanoidのような複雑な制御タスクで50kオンラインステップで最適なポリシーを見出す。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。