論文の概要: Boosted Off-Policy Learning
- arxiv url: http://arxiv.org/abs/2208.01148v1
- Date: Mon, 1 Aug 2022 21:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:03:57.709689
- Title: Boosted Off-Policy Learning
- Title(参考訳): オフポリティ学習の促進
- Authors: Ben London, Levi Lu, Ted Sandler, Thorsten Joachims
- Abstract要約: 本稿では,政策の期待する報奨の見積を直接最適化する,新たなブースティングアルゴリズムを提案する。
また,「弱」学習条件が満たされれば,各ラウンドで経験的リスクが減少することを示した。
実験により、我々のアルゴリズムは、観察された報酬を単純に回帰させるような、政治外の深い学習や手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 21.042970740577648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate boosted ensemble models for off-policy learning from logged
bandit feedback. Toward this goal, we propose a new boosting algorithm that
directly optimizes an estimate of the policy's expected reward. We analyze this
algorithm and prove that the empirical risk decreases (possibly exponentially
fast) with each round of boosting, provided a "weak" learning condition is
satisfied. We further show how the base learner reduces to standard supervised
learning problems. Experiments indicate that our algorithm can outperform deep
off-policy learning and methods that simply regress on the observed rewards,
thereby demonstrating the benefits of both boosting and choosing the right
learning objective.
- Abstract(参考訳): ログ付きバンディットフィードバックによるオフポリシー学習のためのブーストアンサンブルモデルについて検討した。
この目標に向けて,政策の期待される報酬の見積を直接最適化する新しいブースティングアルゴリズムを提案する。
このアルゴリズムを解析し,「弱く」学習条件を満たせば,各ラウンドのブースティング毎に経験的リスクが減少する(指数関数的に速い)ことを証明する。
さらに,ベース学習者が標準教師付き学習問題にどのように還元するかを示す。
実験により,本アルゴリズムは,観察された報奨を単純に抑えることによって,適切な学習目標の促進と選択のメリットを示すことができることを示す。
関連論文リスト
- Upside-Down Reinforcement Learning for More Interpretable Optimal Control [2.06242362470764]
ニューラルネットワーク(NN)以外の関数近似アルゴリズムも,アップサイドダウン強化学習フレームワークで利用できるかを検討する。
我々の実験は、いくつかの一般的な最適制御ベンチマークで実施され、ランダムフォレストや極端ランダム化ツリーのような木に基づく手法が、NNと同様に動作可能であることを示す。
論文 参考訳(メタデータ) (2024-11-18T10:44:20Z) - Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Boosting for Online Convex Optimization [64.15578413206715]
多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。
弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。
ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-02-18T12:30:49Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Mastering Rate based Curriculum Learning [78.45222238426246]
学習の進行という概念には、学習者のサンプル効率の低下につながるいくつかの欠点があると主張する。
本稿では,習得率の概念に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-14T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。