Fugu-MT 論文翻訳(概要): Position-Based Multiple-Play Bandits with Thompson Sampling

論文の概要: Position-Based Multiple-Play Bandits with Thompson Sampling

arxiv url: http://arxiv.org/abs/2009.13181v3
Date: Wed, 3 Mar 2021 16:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 21:31:58.744547
Title: Position-Based Multiple-Play Bandits with Thompson Sampling
Title（参考訳）: トンプソンサンプリングを用いた位置ベースマルチプレイバンド
Authors: Camille-Sovanneary Gauthier, Romaric Gaudel and Elisa Fromont
Abstract要約: マルチプレイの盗賊は、関連するアイテムをWebページ上の関連する位置に表示することを目的としている。我々は、トンプソンサンプリングフレームワークを用いたオンラインレコメンデータシステムのための、新しいバンディットベースのアルゴリズムPB-MHBを導入する。
参考スコア（独自算出の注目度）: 3.222802562733787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiple-play bandits aim at displaying relevant items at relevant positions on a web page. We introduce a new bandit-based algorithm, PB-MHB, for online recommender systems which uses the Thompson sampling framework. This algorithm handles a display setting governed by the position-based model. Our sampling method does not require as input the probability of a user to look at a given position in the web page which is, in practice, very difficult to obtain. Experiments on simulated and real datasets show that our method, with fewer prior information, deliver better recommendations than state-of-the-art algorithms.
Abstract（参考訳）: マルチプレイの盗賊は、関連するアイテムをWebページに表示することを目的としている。本稿では,トンプソンサンプリングフレームワークを用いたオンラインレコメンダシステムのための新しいバンドイットベースアルゴリズムpb-mhbを提案する。このアルゴリズムは位置ベースモデルによって制御される表示設定を処理する。本手法は,ユーザがwebページ内の任意の位置を見る確率を入力として必要とせず,実際に取得するのが極めて困難である。シミュレーションおよび実データを用いた実験により,本手法は,事前情報が少なく,最先端アルゴリズムよりも優れたレコメンデーションを提供することが示された。

関連論文リスト

Model-free Grasping with Multi-Suction Cup Grippers for Robotic Bin Picking [63.15595970667581]
複数の吸引カップを有する吸引グリップパのグリップポーズのモデルフリー予測法を提案する。本手法はグリッパーの設計に非依存であり,グリッパー固有のトレーニングデータを必要としない。
論文参考訳（メタデータ） (2023-07-31T08:33:23Z)
Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文参考訳（メタデータ） (2022-09-16T23:34:44Z)
Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文参考訳（メタデータ） (2022-06-22T17:58:23Z)
An End-to-End Transformer Model for Crowd Localization [64.15335535775883]
頭の位置を予測するクラウドローカライゼーションは、単にカウントするよりも実用的でハイレベルなタスクである。既存の方法は擬似有界ボックスや事前設計されたローカライゼーションマップを使用し、複雑な後処理に頼って先頭位置を得る。本稿では,レグレッションベースパラダイムの課題を解決するエレガントでエンドツーエンドなクラウドローカライゼーションTRansformerを提案する。
論文参考訳（メタデータ） (2022-02-26T05:21:30Z)
SuctionNet-1Billion: A Large-Scale Benchmark for Suction Grasping [47.221326169627666]
吸引つかみのシール形成とレンチ抵抗を解析的に評価する新しい物理モデルを提案する。現実世界の混乱したシナリオで収集された大規模データセットにアノテーションを生成するために、2段階の手法が採用されている。連続運転空間における吸入ポーズを評価するための標準オンライン評価システムを提案する。
論文参考訳（メタデータ） (2021-03-23T05:02:52Z)
Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文参考訳（メタデータ） (2021-02-25T22:29:25Z)
Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文参考訳（メタデータ） (2020-09-27T20:47:25Z)
Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文参考訳（メタデータ） (2020-08-03T08:58:18Z)
Analysis and Design of Thompson Sampling for Stochastic Partial Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文参考訳（メタデータ） (2020-06-17T05:48:33Z)
Learning to Rank in the Position Based Model with Bandit Feedback [3.9121134770873742]
本稿では,LinUCB と Linear Thompson Sampling の2つのよく知られたアルゴリズムの拡張を提案する。生産環境におけるバイアスを考慮し,位置ベースクリックモデルを用いる。
論文参考訳（メタデータ） (2020-04-27T19:12:20Z)
Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文参考訳（メタデータ） (2020-03-20T09:48:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。