論文の概要: UniRank: Unimodal Bandit Algorithm for Online Ranking
- arxiv url: http://arxiv.org/abs/2208.01515v1
- Date: Tue, 2 Aug 2022 15:01:33 GMT
- Title: UniRank: Unimodal Bandit Algorithm for Online Ranking
- Title(参考訳): UniRank: オンラインランキングのためのUnimodal Banditアルゴリズム
- Authors: Camille-Sovanneary Gauthier (LACODAM), Romaric Gaudel (ENSAI, CREST),
Elisa Fromont (LACODAM, IUF, UR1)
- Abstract要約: We create a algorithm with a expected regret matching $O(fracLlog(L)Deltalog(T))$ with $2L$ player, $T$ and a least reward gap $Delta$。
- Abstract: We tackle a new emerging problem, which is finding an optimal monopartite
matching in a weighted graph. The semi-bandit version, where a full matching is
sampled at each iteration, has been addressed by \cite{ADMA}, creating an
algorithm with an expected regret matching $O(\frac{L\log(L)}{\Delta}\log(T))$
with $2L$ players, $T$ iterations and a minimum reward gap $\Delta$. We reduce
this bound in two steps. First, as in \cite{GRAB} and \cite{UniRank} we use the
unimodality property of the expected reward on the appropriate graph to design
an algorithm with a regret in $O(L\frac{1}{\Delta}\log(T))$. Secondly, we show
that by moving the focus towards the main question `\emph{Is user $i$ better
than user $j$?}' this regret becomes
$O(L\frac{\Delta}{\tilde{\Delta}^2}\log(T))$, where $\Tilde{\Delta} > \Delta$
derives from a better way of comparing users. Some experimental results finally
show these theoretical results are corroborated in practice.
- Abstract(参考訳): 我々は,重み付きグラフにおける最適単成分マッチングを求める新たな問題に取り組む。
半バンドバージョンは、各イテレーションで完全なマッチングがサンプリングされるが、 \cite{ADMA} によって対処され、期待される後悔のマッチングが$O(\frac{L\log(L)}{\Delta}\log(T))$で$2L$プレーヤー、$T$イテレーション、最小報酬ギャップ$\Delta$でアルゴリズムを作成する。
この制限を 2 段階減らします.
まず、 \cite{GRAB} や \cite{UniRank} のように、適切なグラフ上の期待される報酬の一様性を使って、$O(L\frac{1}{\Delta}\log(T))$で後悔したアルゴリズムを設計する。
第二に、焦点をメインの質問 “\emph{Is user $i$ better than user $j$?
この後悔は、$O(L\frac{\Delta}{\tilde{\Delta}^2}\log(T))$となり、$\Tilde{\Delta} > \Delta$は、ユーザーを比較するより良い方法に由来する。
