論文の概要: Ranking in Contextual Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2207.00109v1
- Date: Thu, 30 Jun 2022 21:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 04:11:48.554991
- Title: Ranking in Contextual Multi-Armed Bandits
- Title(参考訳): 文脈的マルチアーマッドバンドにおけるランク付け
- Authors: Amitis Shidani, George Deligiannidis, Arnaud Doucet
- Abstract要約: 文脈的マルチアームバンディット設定におけるランキング問題について検討する。
学習エージェントは、各タイミングでアイテムの順序付きリストを選択し、各位置の成果を観察する。
オンラインレコメンデーションシステムでは、ポジションとアイテムの依存関係の両方が複雑な報酬関数をもたらすため、最も魅力的なアイテムの順序リストを表示するのがベストな選択ではない。
- 参考スコア(独自算出の注目度): 28.94782648562968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a ranking problem in the contextual multi-armed bandit setting. A
learning agent selects an ordered list of items at each time step and observes
stochastic outcomes for each position. In online recommendation systems,
showing an ordered list of the most attractive items would not be the best
choice since both position and item dependencies result in a complicated reward
function. A very naive example is the lack of diversity when all the most
attractive items are from the same category. We model position and item
dependencies in the ordered list and design UCB and Thompson Sampling type
algorithms for this problem. We prove that the regret bound over $T$ rounds and
$L$ positions is $\Tilde{O}(L\sqrt{d T})$, which has the same order as the
previous works with respect to $T$ and only increases linearly with $L$. Our
work generalizes existing studies in several directions, including position
dependencies where position discount is a particular case, and proposes a more
general contextual bandit model.
- Abstract(参考訳): 文脈的マルチアームバンディット設定におけるランキング問題について検討する。
学習エージェントは、各タイミングでアイテムの順序付きリストを選択し、各位置の確率的な結果を観察する。
オンラインレコメンデーションシステムでは、ポジションとアイテム依存の両方が複雑な報酬関数をもたらすため、最も魅力的なアイテムの順序リストを表示するのが最善の選択ではない。
非常に単純な例は、最も魅力的なアイテムがすべて同じカテゴリからのものである場合の多様性の欠如である。
順序付きリストにおける位置と項目の依存関係をモデル化し、この問題に対して UCB と Thompson Sampling 型アルゴリズムを設計する。
我々は、$T$ のラウンドと$L$ の位置に対する後悔が $\Tilde{O}(L\sqrt{d T})$ であることを証明する。
本研究は,位置ディスカウントが特定の場合の位置依存性を含む,既存の研究をいくつかの方向に一般化し,より一般的な文脈的バンディットモデルを提案する。
関連論文リスト
- Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models [63.714662435555674]
大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示す。
我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。
LLaMA v2 (70B) では GPT-3.5 では 7-18% , LLaMA v2 (70B) では 8-16% である。
論文 参考訳(メタデータ) (2023-10-11T17:59:02Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - Learning List-Level Domain-Invariant Representations for Ranking [59.3544317373004]
リストレベルのアライメント -- より高いレベルのリストでドメイン不変表現を学習する。
利点は2つある: これは、ランク付けに縛られる最初のドメイン適応の一般化をもたらし、その結果、提案法に対する理論的支援を提供する。
論文 参考訳(メタデータ) (2022-12-21T04:49:55Z) - Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。
本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。
パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-25T06:04:59Z) - Online Learning of Optimally Diverse Rankings [63.62764375279861]
ユーザのフィードバックのみに基づいて最適なリストを効率よく学習するアルゴリズムを提案する。
我々は、$T$クエリの後に、LDRの後悔は$O((N-L)log(T))$としてスケールする。
論文 参考訳(メタデータ) (2021-09-13T12:13:20Z) - Maximizing Store Revenues using Tabu Search for Floor Space Optimization [0.0]
我々は、この問題を、さらに大域的な制約を伴って連結多重選択knapsack問題として定式化する。
タブ検索に基づくメタヒューリスティックを提案する。
論文 参考訳(メタデータ) (2020-11-04T22:42:54Z) - Aggregating Incomplete and Noisy Rankings [13.267203883254087]
我々は、ほとんど不完全でノイズの多いランキングから、一組の代替品の真の順序付けを学ぶことの問題を考察する。
我々の選択的なMallowsモデルは、任意の選択肢の任意の部分集合におけるノイズの多いランクを出力する。
選抜されたMallowsランキングから、最適極大ランキングを効率的に計算する方法を示す。
論文 参考訳(メタデータ) (2020-11-02T08:18:33Z) - Distance-based Positive and Unlabeled Learning for Ranking [13.339237388350043]
階級の学習は一般的な関心の問題である。
整数線形プログラムを用いた表現の組み合わせによるランク付け学習は,「興味のある項目に類似する項目は少ない」ほど軽快な場合には有効であることを示す。
論文 参考訳(メタデータ) (2020-05-20T01:53:58Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。