論文の概要: Boosting for Online Convex Optimization
- arxiv url: http://arxiv.org/abs/2102.09305v1
- Date: Thu, 18 Feb 2021 12:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:30:06.755530
- Title: Boosting for Online Convex Optimization
- Title(参考訳): オンライン凸最適化のためのブースト
- Authors: Elad Hazan, Karan Singh
- Abstract要約: 多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。
弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。
ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
- 参考スコア(独自算出の注目度): 64.15578413206715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider the decision-making framework of online convex optimization with
a very large number of experts. This setting is ubiquitous in contextual and
reinforcement learning problems, where the size of the policy class renders
enumeration and search within the policy class infeasible.
Instead, we consider generalizing the methodology of online boosting. We
define a weak learning algorithm as a mechanism that guarantees
multiplicatively approximate regret against a base class of experts. In this
access model, we give an efficient boosting algorithm that guarantees
near-optimal regret against the convex hull of the base class. We consider both
full and partial (a.k.a. bandit) information feedback models. We also give an
analogous efficient boosting algorithm for the i.i.d. statistical setting.
Our results simultaneously generalize online boosting and gradient boosting
guarantees to contextual learning model, online convex optimization and bandit
linear optimization settings.
- Abstract(参考訳): 我々は,オンライン凸最適化の意思決定フレームワークを,非常に多くの専門家と検討する。
この設定は、ポリシークラスのサイズが実行不能なポリシークラス内の列挙と検索をレンダリングするコンテキストおよび強化学習問題で普遍的です。
代わりに、オンラインブースティングの方法論を一般化することを検討する。
我々は,弱い学習アルゴリズムを,専門家の基底クラスに対して乗法的に近似的な後悔を保証するメカニズムとして定義する。
このアクセスモデルでは、ベースクラスの凸包に対して最適に近い後悔を保証する効率的なブースティングアルゴリズムを提供する。
全体と部分(a.k.a.)の両方を検討する。
情報フィードバックモデル。
また、i.i.dに類似の効率的なブースティングアルゴリズムを与える。
統計的設定
また,オンラインブースティングと勾配ブースティングを,文脈学習モデル,オンライン凸最適化,バンディット線形最適化設定に一般化した。
関連論文リスト
- Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Faster Margin Maximization Rates for Generic Optimization Methods [23.185655992407742]
1次最適化法は、与えられたトレーニング目標を複数の局所最適化で最小化する場合、他の方法よりも特定の解を好む傾向にある。
近年の研究では、勾配差に基づく手法は、$ell$-maximal margin classifierに対して暗黙の偏見を示すことが示されている。
本稿では,ミラー降下法と最急降下法について,最先端の暗黙バイアス率を示す。
論文 参考訳(メタデータ) (2023-05-27T18:16:56Z) - Introduction to Online Nonstochastic Control [65.18774760752588]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Boosted Off-Policy Learning [21.042970740577648]
ログ化された盗聴フィードバックから外部政治学習を行うための最初のブースティングアルゴリズムを提案する。
教師付き学習のための既存の強化手法とは異なり、我々のアルゴリズムはポリシーの期待される報酬の見積を直接最適化する。
本稿では,教師付き学習に基礎学習者を還元する方法を示す。
論文 参考訳(メタデータ) (2022-08-01T21:43:02Z) - Online Agnostic Multiclass Boosting [20.22409095000365]
オンライン・アグノスティック・ミュートリクラス分類のための最初のブースティング・アルゴリズムを提案する。
我々の削減により、統計的非依存、オンライン実現可能、および統計的実現可能なマルチクラスブースティングのためのアルゴリズムの構築が可能となった。
論文 参考訳(メタデータ) (2022-05-30T13:59:55Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Online Boosting with Bandit Feedback [36.33990847170534]
学習者が限られた情報しか入手できない場合、回帰タスクのオンライン強化の問題を考える。
ノイズの多いマルチポイント帯域フィードバックを持つオンラインブースティングアルゴリズムと、勾配のある新しいオンライン凸最適化アルゴリズムという、2つの意味を持つ効率的な後悔の最小化法を提案する。
論文 参考訳(メタデータ) (2020-07-23T12:40:57Z) - Online Agnostic Boosting via Regret Minimization [47.19178618537368]
Boostingは、弱い学習ルールを集約するというアイデアに基づいて、広く使われている機械学習アプローチである。
オンラインブースティングアルゴリズムとしては,最弱の学習者に対して,自明な後悔の保証しか持たないことを考えると,そのアルゴリズムは,サブ線形後悔の強い学習者に促進する。
論文 参考訳(メタデータ) (2020-03-02T19:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。