論文の概要: Non-exponentially weighted aggregation: regret bounds for unbounded loss
functions
- arxiv url: http://arxiv.org/abs/2009.03017v5
- Date: Thu, 17 Jun 2021 09:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:20:03.177055
- Title: Non-exponentially weighted aggregation: regret bounds for unbounded loss
functions
- Title(参考訳): 非指数重み付き集合:非有界損失関数に対する後悔境界
- Authors: Pierre Alquier
- Abstract要約: オンライン最適化の問題は、一般の、おそらくは非有界な損失関数によって解決される。
損失が有界であるとき、指数的に重み付けされた集約戦略(EWA)は、$T$の後に$sqrtT$を後悔する。
- 参考スコア(独自算出の注目度): 8.22379888383833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of online optimization with a general, possibly
unbounded, loss function. It is well known that when the loss is bounded, the
exponentially weighted aggregation strategy (EWA) leads to a regret in
$\sqrt{T}$ after $T$ steps. In this paper, we study a generalized aggregation
strategy, where the weights no longer depend exponentially on the losses. Our
strategy is based on Follow The Regularized Leader (FTRL): we minimize the
expected losses plus a regularizer, that is here a $\phi$-divergence. When the
regularizer is the Kullback-Leibler divergence, we obtain EWA as a special
case. Using alternative divergences enables unbounded losses, at the cost of a
worst regret bound in some cases.
- Abstract(参考訳): オンライン最適化の問題は、一般的には非有界な損失関数によって解決される。
損失が有界であるとき、指数的に重み付けされた集約戦略(EWA)は、$T$の後に$\sqrt{T}$で後悔する。
本稿では,重みが損失に指数関数的に依存しない一般化集約戦略について検討する。
私たちの戦略は正規化リーダ(regularized leader, ftrl): 期待される損失とレギュラライザを最小化すること、すなわち$\phi$-divergenceです。
正規化器がKullback-Leibler分散であるとき、特殊ケースとしてEWAを得る。
代替の発散を使用することで、最悪の後悔を犠牲にして、無制限の損失を可能にする。
関連論文リスト
- Cross-Entropy Loss Functions: Theoretical Analysis and Applications [27.3569897539488]
本稿では, クロスエントロピー(あるいはロジスティック損失), 一般化クロスエントロピー, 平均絶対誤差, その他のクロスエントロピー様損失関数を含む, 幅広い損失関数群の理論解析について述べる。
これらの損失関数は,$H$-consistency bounds(===========================================================================)であることを証明する。
これにより、正規化された滑らかな逆数和損失を最小限に抑える新しい逆数堅牢性アルゴリズムがもたらされる。
論文 参考訳(メタデータ) (2023-04-14T17:58:23Z) - Best of Both Worlds Policy Optimization [33.13041034490332]
本稿では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が相反する場合には,より好意的なポリログ$(T)=後悔が得られることを示す。
政策最適化のために、ギャップ依存のポリログ$(T)$後悔境界が示されるのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-18T19:46:11Z) - Near-Optimal Adversarial Reinforcement Learning with Switching Costs [43.895798638743784]
本稿では, スイッチングコストを伴い, 効率の良いRLアルゴリズムの開発方法について述べる。
我々の下限は、敵RLのコストを切り替えるという根本的な課題のため、最も達成された後悔はもはや達成不可能であることを示している。
本稿では,遷移関数が知られているときの下位境界に一致することを後悔する2つの新しいスイッチング・リデュースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:41:29Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Scale-free Unconstrained Online Learning for Curved Losses [1.5147172044848798]
コンパレータのノルム$U$と勾配の最大ノルム$G$に同時に適応する可能性を検討する。
意外なことに、最近の研究では1ドル=Lipschitz損失の特定のケースにおいて、適応性に対するそのような価格が不要であることが示されている。
論文 参考訳(メタデータ) (2022-02-11T14:10:35Z) - Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding
Box Regression [59.72580239998315]
我々は、既存のIoUベースの損失を、パワーIoU項と追加のパワー正規化項を有する新しいパワーIoU損失ファミリーに一般化する。
複数のオブジェクト検出ベンチマークとモデルの実験では、$alpha$-IoUの損失が既存のIoUベースの損失を顕著なパフォーマンスマージンで上回ることを示した。
論文 参考訳(メタデータ) (2021-10-26T13:09:20Z) - Last Iterate Risk Bounds of SGD with Decaying Stepsize for
Overparameterized Linear Regression [122.70478935214128]
勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化されている。
本稿では, 崩壊段階のSGDの最終反復リスク境界に関する問題依存解析を行う。
論文 参考訳(メタデータ) (2021-10-12T17:49:54Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Gradient descent follows the regularization path for general losses [33.155195855431344]
任意の凸損失を持つ線形予測器上での実証的リスク最小化について,勾配降下経路とアルゴリズム非依存正規化経路は同じ方向に収束することを示す。
我々は、広く使われている指数関数的損失の正当化を提供する。
論文 参考訳(メタデータ) (2020-06-19T17:01:25Z) - Supervised Learning: No Loss No Cry [51.07683542418145]
教師付き学習は最小化するために損失関数の仕様を必要とする。
本稿では,Kakade et al. (2011)のSLIsotronアルゴリズムを新しいレンズで再検討する。
損失を学習するための原則的な手順をいかに提供するかを示す。
論文 参考訳(メタデータ) (2020-02-10T05:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。