#### 論文の概要: A note on the price of bandit feedback for mistake-bounded online learning

• Date: Sun, 31 Jan 2021 21:08:43 GMT
• Title: A note on the price of bandit feedback for mistake-bounded online learning
• Title（参考訳）: ミスバウンドオンライン学習における盗聴フィードバックの価格に関する一考察
• Authors: Jesse Geneson
• Abstract要約: 標準モデルとバンディットモデルは、ミスバウンドモデルからオンラインマルチクラス分類への一般化である。 両方のモデルでは、学習者は各ラウンドで分類を推測しますが、標準モデルでは、学習者は各推測後に正しい分類を受け取ります。 この補題は、$s$ と $t$ が互いに複数の mod $p$ である場合に正確に偽であることを示す。
• Abstract: The standard model and the bandit model are two generalizations of the mistake-bound model to online multiclass classification. In both models the learner guesses a classification in each round, but in the standard model the learner recieves the correct classification after each guess, while in the bandit model the learner is only told whether or not their guess is correct in each round. For any set $F$ of multiclass classifiers, define $opt_{std}(F)$ and $opt_{bandit}(F)$ to be the optimal worst-case number of prediction mistakes in the standard and bandit models respectively. Long (Theoretical Computer Science, 2020) claimed that for all $M > 2$ and infinitely many $k$, there exists a set $F$ of functions from a set $X$ to a set $Y$ of size $k$ such that $opt_{std}(F) = M$ and $opt_{bandit}(F) \ge (1 - o(1))(|Y|\ln{|Y|})opt_{std}(F)$. The proof of this result depended on the following lemma, which is false e.g. for all prime $p \ge 5$, $s = \mathbf{1}$ (the all $1$ vector), $t = \mathbf{2}$ (the all $2$ vector), and all $z$. Lemma: Fix $n \ge 2$ and prime $p$, and let $u$ be chosen uniformly at random from $\left\{0, \dots, p-1\right\}^n$. For any $s, t \in \left\{1, \dots, p-1\right\}^n$ with $s \neq t$ and for any $z \in \left\{0, \dots, p-1\right\}$, we have $\Pr(t \cdot u = z \mod p \text{ } | \text{ } s \cdot u = z \mod p) = \frac{1}{p}$. We show that this lemma is false precisely when $s$ and $t$ are multiples of each other mod $p$. Then using a new lemma, we fix Long's proof.
• Abstract（参考訳）: 標準モデルとバンディットモデルは、ミスバウンドモデルからオンラインマルチクラス分類への2つの一般化である。 どちらのモデルでも、学習者は各ラウンドの分類を推測するが、標準モデルでは、学習者は各推測の後に正しい分類を関連付けるが、バンディットモデルでは、学習者は各ラウンドの推測が正しいかどうかのみを指示される。 マルチクラス分類器の任意のセット$F$に対して、$opt_{std}(F)$と$opt_{bandit}(F)$をそれぞれ標準モデルとバンディットモデルにおける予測ミスの最適ケース数として定義する。 Long (Theoretical Computer Science, 2020) は、すべての$M > 2$と無限に多くの $k$ に対して、$opt_{std}(F) = M$ and $opt_{bandit}(F) \ge (1o(1))(|Y|\ln{|Y|})opt_{std}(F)$ であるような集合 $X$ から a set $Y$ までの関数の集合 $F$ が存在すると主張した。 この結果の証明は次の補題(例えば偽)に依存する。 すべての素数$p \ge 5$, $s = \mathbf{1}$ (すべてのベクトル)、$t = \mathbf{2}$ (すべての$2$ベクトル)、およびすべての$z$に対して。 Lemma: Fix $n \ge 2$ and prime $p$, and let $u$ be uniformly at random from $\left\{0, \dots, p-1\right\}^n$。 任意の$s, t \in \left\{1, \dots, p-1\right\}^n$ with $s \neq t$ and any $z \in \left\{0, \dots, p-1\right\}$ に対して、$\pr(t \cdot u = z \mod p \text{ } | \text{ } s \cdot u = z \mod p) = \frac{1}{p}$ となる。 この補題は、$s$ と $t$ が互いに mod $p$ であるときに正しく偽であることを示している。 そして、新しい補題を使って、Longの証明を修正する。

