Fugu-MT 論文翻訳(概要): Boosting for Online Convex Optimization

論文の概要: Boosting for Online Convex Optimization

arxiv url: http://arxiv.org/abs/2102.09305v1
Date: Thu, 18 Feb 2021 12:30:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-19 14:30:06.755530
Title: Boosting for Online Convex Optimization
Title（参考訳）: オンライン凸最適化のためのブースト
Authors: Elad Hazan, Karan Singh
Abstract要約: 多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
参考スコア（独自算出の注目度）: 64.15578413206715
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We consider the decision-making framework of online convex optimization with a very large number of experts. This setting is ubiquitous in contextual and reinforcement learning problems, where the size of the policy class renders enumeration and search within the policy class infeasible. Instead, we consider generalizing the methodology of online boosting. We define a weak learning algorithm as a mechanism that guarantees multiplicatively approximate regret against a base class of experts. In this access model, we give an efficient boosting algorithm that guarantees near-optimal regret against the convex hull of the base class. We consider both full and partial (a.k.a. bandit) information feedback models. We also give an analogous efficient boosting algorithm for the i.i.d. statistical setting. Our results simultaneously generalize online boosting and gradient boosting guarantees to contextual learning model, online convex optimization and bandit linear optimization settings.
Abstract（参考訳）: 我々は,オンライン凸最適化の意思決定フレームワークを,非常に多くの専門家と検討する。この設定は、ポリシークラスのサイズが実行不能なポリシークラス内の列挙と検索をレンダリングするコンテキストおよび強化学習問題で普遍的です。代わりに、オンラインブースティングの方法論を一般化することを検討する。我々は,弱い学習アルゴリズムを,専門家の基底クラスに対して乗法的に近似的な後悔を保証するメカニズムとして定義する。このアクセスモデルでは、ベースクラスの凸包に対して最適に近い後悔を保証する効率的なブースティングアルゴリズムを提供する。全体と部分(a.k.a.)の両方を検討する。情報フィードバックモデル。また、i.i.dに類似の効率的なブースティングアルゴリズムを与える。統計的設定また,オンラインブースティングと勾配ブースティングを,文脈学習モデル,オンライン凸最適化,バンディット線形最適化設定に一般化した。

関連論文リスト

Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T22:36:43Z)
Minimax Adaptive Boosting for Online Nonparametric Regression [10.138723409205497]
本稿では,非パラメトリック回帰に対するパラメータフリーオンライン勾配向上アルゴリズムを提案する。連鎖木への応用は、リプシッツ関数と競合する際の極小極小後悔を達成できることを示す。
論文参考訳（メタデータ） (2024-10-04T12:30:03Z)
Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文参考訳（メタデータ） (2023-07-07T15:03:42Z)
Faster Margin Maximization Rates for Generic and Adversarially Robust Optimization Methods [20.118513136686452]
一階最適化法は、未決定の訓練目標を最小化する際に、本質的に他よりも特定の解を優先する傾向がある。本稿では,ミラー降下法と最急降下法について,最先端の暗黙バイアス率を示す。私たちの加速速度は、このゲームフレームワークにおけるオンライン学習アルゴリズムの残念な部分を活用することによって導き出されます。
論文参考訳（メタデータ） (2023-05-27T18:16:56Z)
Boosted Off-Policy Learning [21.042970740577648]
ログ化された盗聴フィードバックから外部政治学習を行うための最初のブースティングアルゴリズムを提案する。教師付き学習のための既存の強化手法とは異なり、我々のアルゴリズムはポリシーの期待される報酬の見積を直接最適化する。本稿では,教師付き学習に基礎学習者を還元する方法を示す。
論文参考訳（メタデータ） (2022-08-01T21:43:02Z)
Online Agnostic Multiclass Boosting [20.22409095000365]
オンライン・アグノスティック・ミュートリクラス分類のための最初のブースティング・アルゴリズムを提案する。我々の削減により、統計的非依存、オンライン実現可能、および統計的実現可能なマルチクラスブースティングのためのアルゴリズムの構築が可能となった。
論文参考訳（メタデータ） (2022-05-30T13:59:55Z)
Learning Optimal Antenna Tilt Control Policies: A Contextual Linear Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文参考訳（メタデータ） (2022-01-06T18:24:30Z)
A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-08-22T16:00:45Z)
Online Boosting with Bandit Feedback [36.33990847170534]
学習者が限られた情報しか入手できない場合、回帰タスクのオンライン強化の問題を考える。ノイズの多いマルチポイント帯域フィードバックを持つオンラインブースティングアルゴリズムと、勾配のある新しいオンライン凸最適化アルゴリズムという、2つの意味を持つ効率的な後悔の最小化法を提案する。
論文参考訳（メタデータ） (2020-07-23T12:40:57Z)
Online Agnostic Boosting via Regret Minimization [47.19178618537368]
Boostingは、弱い学習ルールを集約するというアイデアに基づいて、広く使われている機械学習アプローチである。オンラインブースティングアルゴリズムとしては,最弱の学習者に対して,自明な後悔の保証しか持たないことを考えると,そのアルゴリズムは,サブ線形後悔の強い学習者に促進する。
論文参考訳（メタデータ） (2020-03-02T19:21:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。