論文の概要: Learning to Rank under Multinomial Logit Choice
- arxiv url: http://arxiv.org/abs/2009.03207v1
- Date: Mon, 7 Sep 2020 16:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:38:32.946105
- Title: Learning to Rank under Multinomial Logit Choice
- Title(参考訳): 多項ロジット選択によるランクの学習
- Authors: James A. Grant, David S. Leslie
- Abstract要約: コンテンツの最適順序付けを学ぶことは、ウェブサイト設計において重要な課題である。
我々は、この問題に対する$Omega(sqrtT)$low boundと、既知のパラメータバージョンに対する後悔に関する$tildeO(sqrtT)$ upper boundを理論的に提示する。
- 参考スコア(独自算出の注目度): 6.929312022493406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning the optimal ordering of content is an important challenge in website
design. The learning to rank (LTR) framework models this problem as a
sequential problem of selecting lists of content and observing where users
decide to click. Most previous work on LTR assumes that the user considers each
item in the list in isolation, and makes binary choices to click or not on
each. We introduce a multinomial logit (MNL) choice model to the LTR framework,
which captures the behaviour of users who consider the ordered list of items as
a whole and make a single choice among all the items and a no-click option.
Under the MNL model, the user favours items which are either inherently more
attractive, or placed in a preferable position within the list. We propose
upper confidence bound algorithms to minimise regret in two settings - where
the position dependent parameters are known, and unknown. We present
theoretical analysis leading to an $\Omega(\sqrt{T})$ lower bound for the
problem, an $\tilde{O}(\sqrt{T})$ upper bound on regret for the known parameter
version. Our analyses are based on tight new concentration results for
Geometric random variables, and novel functional inequalities for maximum
likelihood estimators computed on discrete data.
- Abstract(参考訳): コンテンツの最適順序付けを学ぶことは、ウェブサイト設計において重要な課題である。
learning to rank(ltr)フレームワークはこの問題を、コンテンツのリストを選択し、ユーザーがクリックする場所を観察するシーケンシャルな問題としてモデル化している。
LTRに関するこれまでのほとんどの作業は、ユーザがリスト内の各項目を個別に考慮し、各項目をクリックするかしないかをバイナリ選択すると仮定している。
LTRフレームワークにMNL(multinomial logit)選択モデルを導入し、注文されたアイテムのリスト全体を考慮したユーザの振る舞いをキャプチャし、すべてのアイテムの中から1つの選択肢とノークリックオプションを選択できるようにする。
MNLモデルでは、ユーザーは本来より魅力的であるか、リスト内の好ましい位置に置かれているアイテムを好む。
位置依存パラメータが知られ、未知である2つの設定で後悔を最小限に抑えるために、上位信頼バウンドアルゴリズムを提案する。
我々は、この問題に対する$\Omega(\sqrt{T})$下限、$\tilde{O}(\sqrt{T})$上限を既知のパラメータバージョンに対する後悔の上限とする理論解析を提示する。
この分析は、幾何学的確率変数に対する厳密な新しい濃度結果と、離散データに基づいて計算された最大可能性推定器の関数的不等式に基づく。
関連論文リスト
- Adaptively Learning to Select-Rank in Online Platforms [34.258659206323664]
本研究は、異種ユーザの候補プールからアイテムを適応的にランク付けすることの課題に対処する。
本研究では,多様なユーザの好みや項目位置の影響を考慮に入れたユーザ応答モデルを構築した。
シミュレーションと実世界の両方のデータセットで実施された実験は、アルゴリズムがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-07T15:33:48Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Simultaneously Learning Stochastic and Adversarial Bandits under the
Position-Based Model [9.945948163150874]
本研究は, 位置ベースモデルに基づくオンライン学習における課題のランク付けに関する研究である。
提案アルゴリズムは,対向環境において$O(logT)$後悔を同時に達成し,対向環境において$O(msqrtnT)$後悔を同時に達成する。
実験により,本アルゴリズムは,既存手法と競合する環境下で同時に学習できることが確認された。
論文 参考訳(メタデータ) (2022-07-12T10:00:14Z) - Online Learning of Optimally Diverse Rankings [63.62764375279861]
ユーザのフィードバックのみに基づいて最適なリストを効率よく学習するアルゴリズムを提案する。
我々は、$T$クエリの後に、LDRの後悔は$O((N-L)log(T))$としてスケールする。
論文 参考訳(メタデータ) (2021-09-13T12:13:20Z) - Multinomial Logit Contextual Bandits: Provable Optimality and
Practicality [15.533842336139063]
パラメータが不明な多項式ロギット(MNL)選択モデルによってユーザ選択が与えられる順序選択選択問題を検討する。
本稿では,このMNLコンテクストバンディットに対する高信頼境界に基づくアルゴリズムを提案する。
本稿では,アルゴリズムの単純な変種が,幅広い重要なアプリケーションに対して最適な後悔を与えることを示す。
論文 参考訳(メタデータ) (2021-03-25T15:42:25Z) - Learning over no-Preferred and Preferred Sequence of items for Robust
Recommendation [66.8722561224499]
暗黙のフィードバックよりも大規模なレコメンダーシステム(RS)を訓練するための理論的に確立されたシーケンシャル戦略を提案する。
本稿では、モデルパラメータをモメンタリメソッドまたはグラデーションベースのアプローチで更新するこの戦略の2つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2020-12-12T22:10:15Z) - Fully Gap-Dependent Bounds for Multinomial Logit Bandit [5.132017939561661]
マルチノミアルロジット (MNL) バンディット問題について検討し、各ステップごとに、販売者は、N$アイテムのプールから最大でK$のサイズを提供する。
i) $widetildeO(sum_i = 1N Delta_i-2)$ time steps with high probability, (ii) $O(sum_i notin S* KDelta_i)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T17:52:12Z) - Efficient Online Learning of Optimal Rankings: Dimensionality Reduction
via Gradient Descent [47.66497212729108]
一般化されたMin-Sum-Set-Cover問題は上記の設定の形式モデルとして機能する。
GMSSCインタイムでの後悔度を低くする方法を示す。
論文 参考訳(メタデータ) (2020-11-05T13:52:34Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。