論文の概要: Online Boosting with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2007.11975v1
- Date: Thu, 23 Jul 2020 12:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 11:53:50.412948
- Title: Online Boosting with Bandit Feedback
- Title(参考訳): Banditフィードバックによるオンラインブースティング
- Authors: Nataly Brukhim and Elad Hazan
- Abstract要約: 学習者が限られた情報しか入手できない場合、回帰タスクのオンライン強化の問題を考える。
ノイズの多いマルチポイント帯域フィードバックを持つオンラインブースティングアルゴリズムと、勾配のある新しいオンライン凸最適化アルゴリズムという、2つの意味を持つ効率的な後悔の最小化法を提案する。
- 参考スコア(独自算出の注目度): 36.33990847170534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of online boosting for regression tasks, when only
limited information is available to the learner. We give an efficient regret
minimization method that has two implications: an online boosting algorithm
with noisy multi-point bandit feedback, and a new projection-free online convex
optimization algorithm with stochastic gradient, that improves state-of-the-art
guarantees in terms of efficiency.
- Abstract(参考訳): 我々は,学習者に限られた情報しか提供できない場合,回帰タスクのオンラインブースティングの問題を考える。
雑音の多いマルチポイント帯域フィードバックを持つオンラインブースティングアルゴリズムと、確率勾配を持つ新しいプロジェクションフリーオンライン凸最適化アルゴリズムの2つの意味を持つ効率的な後悔最小化法を提案する。
関連論文リスト
- Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Particle-based Online Bayesian Sampling [24.290436348629452]
粒子の集合を用いて近似分布を表すオンライン粒子に基づく変分推論(OPVI)アルゴリズムについて検討する。
近似の利用による勾配誤差を低減するために, ばらつきを低減するために, バッチサイズを増大させるサブ線形を含む。
実験の結果,提案アルゴリズムは既存のベイズサンプリング手法をオンライン環境に適用するよりも優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-02-28T17:46:32Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Online Agnostic Multiclass Boosting [20.22409095000365]
オンライン・アグノスティック・ミュートリクラス分類のための最初のブースティング・アルゴリズムを提案する。
我々の削減により、統計的非依存、オンライン実現可能、および統計的実現可能なマルチクラスブースティングのためのアルゴリズムの構築が可能となった。
論文 参考訳(メタデータ) (2022-05-30T13:59:55Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Boosting for Online Convex Optimization [64.15578413206715]
多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。
弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。
ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-02-18T12:30:49Z) - Online Agnostic Boosting via Regret Minimization [47.19178618537368]
Boostingは、弱い学習ルールを集約するというアイデアに基づいて、広く使われている機械学習アプローチである。
オンラインブースティングアルゴリズムとしては,最弱の学習者に対して,自明な後悔の保証しか持たないことを考えると,そのアルゴリズムは,サブ線形後悔の強い学習者に促進する。
論文 参考訳(メタデータ) (2020-03-02T19:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。