論文の概要: On the Minimax Regret for Online Learning with Feedback Graphs
- arxiv url: http://arxiv.org/abs/2305.15383v1
- Date: Wed, 24 May 2023 17:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 13:52:12.041209
- Title: On the Minimax Regret for Online Learning with Feedback Graphs
- Title(参考訳): フィードバックグラフを用いたオンライン学習のためのMinimaxレグレクトについて
- Authors: Khaled Eldowa, Emmanuel Esposito, Tommaso Cesari, Nicol\`o
- Abstract要約: 強く観察可能な無向フィードバックグラフを用いて,オンライン学習を後悔する上で,上層と下層の境界を改善した。
改良された上界$mathcalObigl(sqrtalpha T(ln K)/(lnalpha)bigr)$ hold for any $alpha$ and the lower bounds for bandits and experts。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we improve on the upper and lower bounds for the regret of
online learning with strongly observable undirected feedback graphs. The best
known upper bound for this problem is $\mathcal{O}\bigl(\sqrt{\alpha T\ln
K}\bigr)$, where $K$ is the number of actions, $\alpha$ is the independence
number of the graph, and $T$ is the time horizon. The $\sqrt{\ln K}$ factor is
known to be necessary when $\alpha = 1$ (the experts case). On the other hand,
when $\alpha = K$ (the bandits case), the minimax rate is known to be
$\Theta\bigl(\sqrt{KT}\bigr)$, and a lower bound $\Omega\bigl(\sqrt{\alpha
T}\bigr)$ is known to hold for any $\alpha$. Our improved upper bound
$\mathcal{O}\bigl(\sqrt{\alpha T(1+\ln(K/\alpha))}\bigr)$ holds for any
$\alpha$ and matches the lower bounds for bandits and experts, while
interpolating intermediate cases. To prove this result, we use FTRL with
$q$-Tsallis entropy for a carefully chosen value of $q \in [1/2, 1)$ that
varies with $\alpha$. The analysis of this algorithm requires a new bound on
the variance term in the regret. We also show how to extend our techniques to
time-varying graphs, without requiring prior knowledge of their independence
numbers. Our upper bound is complemented by an improved
$\Omega\bigl(\sqrt{\alpha T(\ln K)/(\ln\alpha)}\bigr)$ lower bound for all
$\alpha > 1$, whose analysis relies on a novel reduction to multitask learning.
This shows that a logarithmic factor is necessary as soon as $\alpha < K$.
- Abstract(参考訳): 本研究では,オンライン学習の後悔に対する上層と下層の境界を,強く観察不能なフィードバックグラフを用いて改善する。
この問題の最もよく知られている上限は$\mathcal{o}\bigl(\sqrt{\alpha t\ln k}\bigr)$であり、ここで$k$はアクションの数、$\alpha$はグラフの独立数、$t$は時間軸である。
$\sqrt{\ln K}$因子は、$\alpha = 1$(専門家の場合)に必要であることが知られている。
一方、$\alpha = K$(盗賊の場合)の場合、ミニマックスレートは$\Theta\bigl(\sqrt{KT}\bigr)$、下界の$\Omega\bigl(\sqrt{\alpha T}\bigr)$は任意の$\alpha$に対して保持されることが知られている。
改良された上限 $\mathcal{o}\bigl(\sqrt{\alpha t(1+\ln(k/\alpha)))}\bigr)$ は任意の$\alpha$ に対して成立し、中間の場合を補間しながら、バンディットや専門家の下限に一致する。
この結果を証明するために、$q$-Tsallis entropyで、$\alpha$と異なる$q \in [1/2, 1)$の慎重に選択された値にFTRLを使用する。
我々の上限は改良された$\Omega\bigl(\sqrt{\alpha T(\ln K)/(\ln\alpha)}\bigr)$ lower bound for all $\alpha > 1$で補われ、その解析はマルチタスク学習への新たな還元に依存している。
これは、対数因子はすぐに$\alpha < k$ となることを示している。
- Online Learning with Feedback Graphs: The True Shape of Regret [82.00098840619847]
論文 参考訳(メタデータ) (2023-06-05T15:35:00Z) - Optimal SQ Lower Bounds for Learning Halfspaces with Massart Noise [9.378684220920562]
任意の $eta in [0,1/2]$ に対して、$eta$ よりも誤り分類誤差の少ない全ての SQ アルゴリズムは、スーパーポリノミカルな精度のクエリを必要とすることを示す。
論文 参考訳(メタデータ) (2022-01-24T17:33:19Z) - Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。
また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文 参考訳(メタデータ) (2021-11-09T16:50:18Z) - Nearly Horizon-Free Offline Reinforcement Learning [97.36751930393245]
論文 参考訳(メタデータ) (2021-03-25T18:52:17Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z) - Taking a hint: How to leverage loss predictors in contextual bandits? [63.546913998407405]
最適な後悔は$mathcalO(minsqrtT, sqrtmathcalETfrac13)$である。
論文 参考訳(メタデータ) (2020-03-04T07:36:38Z) - Logarithmic Regret in Multisecretary and Online Linear Programs with
Continuous Valuations [0.0]
私は、mathbbRm$リソースに$nbetaを割り当てるリニアプログラムのシャドウ価格が、$n$顧客に対して$n$ rightarrow infty$として振舞う方法を研究します。
citesLi 2019bのオンラインリニアプログラムが$Theta(log n)$であることを証明するためにこれらの結果を使用します。
論文 参考訳(メタデータ) (2019-12-16T18:43:37Z)