論文の概要: Non-exponentially weighted aggregation: regret bounds for unbounded loss
functions
- arxiv url: http://arxiv.org/abs/2009.03017v5
- Date: Thu, 17 Jun 2021 09:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:20:03.177055
- Title: Non-exponentially weighted aggregation: regret bounds for unbounded loss
functions
- Title(参考訳): 非指数重み付き集合:非有界損失関数に対する後悔境界
- Authors: Pierre Alquier
- Abstract要約: オンライン最適化の問題は、一般の、おそらくは非有界な損失関数によって解決される。
損失が有界であるとき、指数的に重み付けされた集約戦略(EWA)は、$T$の後に$sqrtT$を後悔する。
- 参考スコア(独自算出の注目度): 8.22379888383833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of online optimization with a general, possibly
unbounded, loss function. It is well known that when the loss is bounded, the
exponentially weighted aggregation strategy (EWA) leads to a regret in
$\sqrt{T}$ after $T$ steps. In this paper, we study a generalized aggregation
strategy, where the weights no longer depend exponentially on the losses. Our
strategy is based on Follow The Regularized Leader (FTRL): we minimize the
expected losses plus a regularizer, that is here a $\phi$-divergence. When the
regularizer is the Kullback-Leibler divergence, we obtain EWA as a special
case. Using alternative divergences enables unbounded losses, at the cost of a
worst regret bound in some cases.
- Abstract(参考訳): オンライン最適化の問題は、一般的には非有界な損失関数によって解決される。
損失が有界であるとき、指数的に重み付けされた集約戦略(EWA)は、$T$の後に$\sqrt{T}$で後悔する。
本稿では,重みが損失に指数関数的に依存しない一般化集約戦略について検討する。
私たちの戦略は正規化リーダ(regularized leader, ftrl): 期待される損失とレギュラライザを最小化すること、すなわち$\phi$-divergenceです。
正規化器がKullback-Leibler分散であるとき、特殊ケースとしてEWAを得る。
代替の発散を使用することで、最悪の後悔を犠牲にして、無制限の損失を可能にする。
関連論文リスト
- Refined Risk Bounds for Unbounded Losses via Transductive Priors [58.967816314671296]
線形回帰の逐次変分を2乗損失、ヒンジ損失の分類問題、ロジスティック回帰で再検討する。
我々の鍵となるツールは、慎重に選択された導出先を持つ指数重み付けアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2024-10-29T00:01:04Z) - LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - A note on generalization bounds for losses with finite moments [28.102352176005514]
本論文は,有界分散を有する損失に対して高確率PAC-Bayesを導出する。
結果は、期待と単線PAC-Bayesの保証にまで拡張される。
論文 参考訳(メタデータ) (2024-03-25T12:15:55Z) - Cross-Entropy Loss Functions: Theoretical Analysis and Applications [27.3569897539488]
本稿では, クロスエントロピー(あるいはロジスティック損失), 一般化クロスエントロピー, 平均絶対誤差, その他のクロスエントロピー様損失関数を含む, 幅広い損失関数群の理論解析について述べる。
これらの損失関数は,$H$-consistency bounds(===========================================================================)であることを証明する。
これにより、正規化された滑らかな逆数和損失を最小限に抑える新しい逆数堅牢性アルゴリズムがもたらされる。
論文 参考訳(メタデータ) (2023-04-14T17:58:23Z) - Near-Optimal Adversarial Reinforcement Learning with Switching Costs [43.895798638743784]
本稿では, スイッチングコストを伴い, 効率の良いRLアルゴリズムの開発方法について述べる。
我々の下限は、敵RLのコストを切り替えるという根本的な課題のため、最も達成された後悔はもはや達成不可能であることを示している。
本稿では,遷移関数が知られているときの下位境界に一致することを後悔する2つの新しいスイッチング・リデュースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:41:29Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Scale-free Unconstrained Online Learning for Curved Losses [1.5147172044848798]
コンパレータのノルム$U$と勾配の最大ノルム$G$に同時に適応する可能性を検討する。
意外なことに、最近の研究では1ドル=Lipschitz損失の特定のケースにおいて、適応性に対するそのような価格が不要であることが示されている。
論文 参考訳(メタデータ) (2022-02-11T14:10:35Z) - Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding
Box Regression [59.72580239998315]
我々は、既存のIoUベースの損失を、パワーIoU項と追加のパワー正規化項を有する新しいパワーIoU損失ファミリーに一般化する。
複数のオブジェクト検出ベンチマークとモデルの実験では、$alpha$-IoUの損失が既存のIoUベースの損失を顕著なパフォーマンスマージンで上回ることを示した。
論文 参考訳(メタデータ) (2021-10-26T13:09:20Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Gradient descent follows the regularization path for general losses [33.155195855431344]
任意の凸損失を持つ線形予測器上での実証的リスク最小化について,勾配降下経路とアルゴリズム非依存正規化経路は同じ方向に収束することを示す。
我々は、広く使われている指数関数的損失の正当化を提供する。
論文 参考訳(メタデータ) (2020-06-19T17:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。