論文の概要: A note on the price of bandit feedback for mistake-bounded online
- arxiv url: http://arxiv.org/abs/2101.06891v2
- Date: Sun, 31 Jan 2021 21:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 05:48:58.600873
- Title: A note on the price of bandit feedback for mistake-bounded online
- Title(参考訳): ミスバウンドオンライン学習における盗聴フィードバックの価格に関する一考察
- Authors: Jesse Geneson
- Abstract要約: 標準モデルとバンディットモデルは、ミスバウンドモデルからオンラインマルチクラス分類への一般化である。
この補題は、$s$ と $t$ が互いに複数の mod $p$ である場合に正確に偽であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard model and the bandit model are two generalizations of the
mistake-bound model to online multiclass classification. In both models the
learner guesses a classification in each round, but in the standard model the
learner recieves the correct classification after each guess, while in the
bandit model the learner is only told whether or not their guess is correct in
each round. For any set $F$ of multiclass classifiers, define $opt_{std}(F)$
and $opt_{bandit}(F)$ to be the optimal worst-case number of prediction
mistakes in the standard and bandit models respectively.
Long (Theoretical Computer Science, 2020) claimed that for all $M > 2$ and
infinitely many $k$, there exists a set $F$ of functions from a set $X$ to a
set $Y$ of size $k$ such that $opt_{std}(F) = M$ and $opt_{bandit}(F) \ge (1 -
o(1))(|Y|\ln{|Y|})opt_{std}(F)$. The proof of this result depended on the
following lemma, which is false e.g. for all prime $p \ge 5$, $s = \mathbf{1}$
(the all $1$ vector), $t = \mathbf{2}$ (the all $2$ vector), and all $z$.
Lemma: Fix $n \ge 2$ and prime $p$, and let $u$ be chosen uniformly at random
from $\left\{0, \dots, p-1\right\}^n$. For any $s, t \in \left\{1, \dots,
p-1\right\}^n$ with $s \neq t$ and for any $z \in \left\{0, \dots,
p-1\right\}$, we have $\Pr(t \cdot u = z \mod p \text{ } | \text{ } s \cdot u =
z \mod p) = \frac{1}{p}$.
We show that this lemma is false precisely when $s$ and $t$ are multiples of
each other mod $p$. Then using a new lemma, we fix Long's proof.
- Abstract(参考訳): 標準モデルとバンディットモデルは、ミスバウンドモデルからオンラインマルチクラス分類への2つの一般化である。
Long (Theoretical Computer Science, 2020) は、すべての$M > 2$と無限に多くの $k$ に対して、$opt_{std}(F) = M$ and $opt_{bandit}(F) \ge (1o(1))(|Y|\ln{|Y|})opt_{std}(F)$ であるような集合 $X$ から a set $Y$ までの関数の集合 $F$ が存在すると主張した。
すべての素数$p \ge 5$, $s = \mathbf{1}$ (すべての$$ベクトル)、$t = \mathbf{2}$ (すべての$2$ベクトル)、およびすべての$z$に対して。
Lemma: Fix $n \ge 2$ and prime $p$, and let $u$ be uniformly at random from $\left\{0, \dots, p-1\right\}^n$。
任意の$s, t \in \left\{1, \dots, p-1\right\}^n$ with $s \neq t$ and any $z \in \left\{0, \dots, p-1\right\}$ に対して、$\pr(t \cdot u = z \mod p \text{ } | \text{ } s \cdot u = z \mod p) = \frac{1}{p}$ となる。
この補題は、$s$ と $t$ が互いに mod $p$ であるときに正しく偽であることを示している。
