論文の概要: Position-Based Multiple-Play Bandits with Thompson Sampling
- arxiv url: http://arxiv.org/abs/2009.13181v3
- Date: Wed, 3 Mar 2021 16:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:31:58.744547
- Title: Position-Based Multiple-Play Bandits with Thompson Sampling
- Title(参考訳): トンプソンサンプリングを用いた位置ベースマルチプレイバンド
- Authors: Camille-Sovanneary Gauthier, Romaric Gaudel and Elisa Fromont
- Abstract要約: マルチプレイの盗賊は、関連するアイテムをWebページ上の関連する位置に表示することを目的としている。
我々は、トンプソンサンプリングフレームワークを用いたオンラインレコメンデータシステムのための、新しいバンディットベースのアルゴリズムPB-MHBを導入する。
- 参考スコア(独自算出の注目度): 3.222802562733787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple-play bandits aim at displaying relevant items at relevant positions
on a web page. We introduce a new bandit-based algorithm, PB-MHB, for online
recommender systems which uses the Thompson sampling framework. This algorithm
handles a display setting governed by the position-based model. Our sampling
method does not require as input the probability of a user to look at a given
position in the web page which is, in practice, very difficult to obtain.
Experiments on simulated and real datasets show that our method, with fewer
prior information, deliver better recommendations than state-of-the-art
algorithms.
- Abstract(参考訳): マルチプレイの盗賊は、関連するアイテムをWebページに表示することを目的としている。
本稿では,トンプソンサンプリングフレームワークを用いたオンラインレコメンダシステムのための新しいバンドイットベースアルゴリズムpb-mhbを提案する。
このアルゴリズムは位置ベースモデルによって制御される表示設定を処理する。
本手法は,ユーザがwebページ内の任意の位置を見る確率を入力として必要とせず,実際に取得するのが極めて困難である。
シミュレーションおよび実データを用いた実験により,本手法は,事前情報が少なく,最先端アルゴリズムよりも優れたレコメンデーションを提供することが示された。
関連論文リスト
- Model-free Grasping with Multi-Suction Cup Grippers for Robotic Bin
Picking [63.15595970667581]
複数の吸引カップを有する吸引グリップパのグリップポーズのモデルフリー予測法を提案する。
本手法はグリッパーの設計に非依存であり,グリッパー固有のトレーニングデータを必要としない。
論文 参考訳(メタデータ) (2023-07-31T08:33:23Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - An End-to-End Transformer Model for Crowd Localization [64.15335535775883]
頭の位置を予測するクラウドローカライゼーションは、単にカウントするよりも実用的でハイレベルなタスクである。
既存の方法は擬似有界ボックスや事前設計されたローカライゼーションマップを使用し、複雑な後処理に頼って先頭位置を得る。
本稿では,レグレッションベースパラダイムの課題を解決するエレガントでエンドツーエンドなクラウドローカライゼーションTRansformerを提案する。
論文 参考訳(メタデータ) (2022-02-26T05:21:30Z) - SuctionNet-1Billion: A Large-Scale Benchmark for Suction Grasping [47.221326169627666]
吸引つかみのシール形成とレンチ抵抗を解析的に評価する新しい物理モデルを提案する。
現実世界の混乱したシナリオで収集された大規模データセットにアノテーションを生成するために、2段階の手法が採用されている。
連続運転空間における吸入ポーズを評価するための標準オンライン評価システムを提案する。
論文 参考訳(メタデータ) (2021-03-23T05:02:52Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z) - Learning to Rank in the Position Based Model with Bandit Feedback [3.9121134770873742]
本稿では,LinUCB と Linear Thompson Sampling の2つのよく知られたアルゴリズムの拡張を提案する。
生産環境におけるバイアスを考慮し,位置ベースクリックモデルを用いる。
論文 参考訳(メタデータ) (2020-04-27T19:12:20Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。