論文の概要: Boosted Off-Policy Learning
- arxiv url: http://arxiv.org/abs/2208.01148v2
- Date: Tue, 2 May 2023 17:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 18:03:57.777525
- Title: Boosted Off-Policy Learning
- Title(参考訳): オフポリティ学習の促進
- Authors: Ben London, Levi Lu, Ted Sandler, Thorsten Joachims
- Abstract要約: ログ化された盗聴フィードバックから外部政治学習を行うための最初のブースティングアルゴリズムを提案する。
教師付き学習のための既存の強化手法とは異なり、我々のアルゴリズムはポリシーの期待される報酬の見積を直接最適化する。
本稿では,教師付き学習に基礎学習者を還元する方法を示す。
- 参考スコア(独自算出の注目度): 21.042970740577648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the first boosting algorithm for off-policy learning from logged
bandit feedback. Unlike existing boosting methods for supervised learning, our
algorithm directly optimizes an estimate of the policy's expected reward. We
analyze this algorithm and prove that the excess empirical risk decreases
(possibly exponentially fast) with each round of boosting, provided a ''weak''
learning condition is satisfied by the base learner. We further show how to
reduce the base learner to supervised learning, which opens up a broad range of
readily available base learners with practical benefits, such as decision
trees. Experiments indicate that our algorithm inherits many desirable
properties of tree-based boosting algorithms (e.g., robustness to feature
scaling and hyperparameter tuning), and that it can outperform off-policy
learning with deep neural networks as well as methods that simply regress on
the observed rewards.
- Abstract(参考訳): ログ付きバンディットフィードバックからオフポリシー学習を行うための最初のブースティングアルゴリズムを提案する。
教師付き学習のための既存のブースティング手法とは異なり、本アルゴリズムはポリシーの期待報酬の見積もりを直接最適化する。
このアルゴリズムを解析し,基本学習者が「弱」学習条件を満たせば,昇降毎に過大な経験的リスクが減少する(指数関数的に速い)ことを証明した。
さらに,意思決定木などの実用上のメリットを生かして,利用可能なベース学習者の幅広い範囲を開放する,教師付き学習に対するベース学習者の削減方法を示す。
実験により,本アルゴリズムは,木ベースブースティングアルゴリズムの多くの望ましい特性(例えば,特徴量スケーリングとハイパーパラメータチューニングの堅牢性)を継承し,ディープニューラルネットワークによるオフポリシー学習や,観測された報酬を単純に回帰する手法よりも優れることが示された。
関連論文リスト
- Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Boosting for Online Convex Optimization [64.15578413206715]
多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。
弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。
ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-02-18T12:30:49Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Mastering Rate based Curriculum Learning [78.45222238426246]
学習の進行という概念には、学習者のサンプル効率の低下につながるいくつかの欠点があると主張する。
本稿では,習得率の概念に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-14T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。