Fugu-MT 論文翻訳(概要): Regret in Online Recommendation Systems

論文の概要: Regret in Online Recommendation Systems

arxiv url: http://arxiv.org/abs/2010.12363v1
Date: Fri, 23 Oct 2020 12:48:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 22:17:41.385931
Title: Regret in Online Recommendation Systems
Title（参考訳）: オンラインレコメンデーションシステムにおける後悔
Authors: Kaito Ariu, Narae Ryu, Se-Young Yun, Alexandre Prouti\`ere
Abstract要約: 本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
参考スコア（独自算出の注目度）: 73.58127515175127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a theoretical analysis of recommendation systems in an online setting, where items are sequentially recommended to users over time. In each round, a user, randomly picked from a population of $m$ users, requests a recommendation. The decision-maker observes the user and selects an item from a catalogue of $n$ items. Importantly, an item cannot be recommended twice to the same user. The probabilities that a user likes each item are unknown. The performance of the recommendation algorithm is captured through its regret, considering as a reference an Oracle algorithm aware of these probabilities. We investigate various structural assumptions on these probabilities: we derive for each structure regret lower bounds, and devise algorithms achieving these limits. Interestingly, our analysis reveals the relative weights of the different components of regret: the component due to the constraint of not presenting the same item twice to the same user, that due to learning the chances users like items, and finally that arising when learning the underlying structure.
Abstract（参考訳）: 本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。各ラウンドでは、ユーザがランダムに$m$のユーザから選択され、レコメンデーションが要求される。意思決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。重要なことに、アイテムを同じユーザに2回推奨することはできない。ユーザが各アイテムを気に入る確率は未知である。推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。これらの確率に関する様々な構造的仮定を考察し、各構造は下限を後悔し、これらの限界を達成するアルゴリズムを考案する。興味深いことに,本分析では,同じ項目を同じユーザに対して2度提示しないという制約によるコンポーネント,ユーザがアイテムを好む可能性の学習,そして基盤となる構造を学習する際に生じるコンポーネントの相対重みを明らかにした。

関連論文リスト

Recycling History: Efficient Recommendations from Contextual Dueling Bandits [7.802377730449526]
ユーザがアイテムを消費した後、より信頼性の高いフィードバックを提供するという事実に感銘を受け、我々は新しいバンディットモデルを提案する。私たちのモデルでは、この比較項目は追加の後悔を伴わずに選択できるため、パフォーマンスが向上する可能性がある。このアルゴリズムは,履歴が豊富であれば,ある多様性条件を満たす情報クエリを構築可能であることを示す。
論文参考訳（メタデータ） (2025-08-26T09:18:13Z)
Misalignment, Learning, and Ranking: Harnessing Users Limited Attention [16.74322664734553]
本稿では,最適ベンチマークに対する後悔を解消するオンラインアルゴリズムの設計について検討する。逆オンライン線形最適化の標準的なアルゴリズムは、$O(sqrtT)$ regretのペイオフ時間アルゴリズムを得るためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2024-02-21T18:52:20Z)
Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文参考訳（メタデータ） (2022-07-04T17:49:25Z)
Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文参考訳（メタデータ） (2022-06-01T13:46:25Z)
Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文参考訳（メタデータ） (2022-03-25T02:30:54Z)
FINN.no Slates Dataset: A new Sequential Dataset Logging Interactions, allViewed Items and Click Responses/No-Click for Recommender Systems Research [4.792216056979392]
本稿では,ユーザとオンラインマーケットプレース間の逐次的なインタラクションを記録する,新たなレコメンデータシステムデータセットを提案する。データセットには、各ラウンドで提示されたスレート、ユーザがこれらのアイテムをクリックしたかどうか、ユーザがクリックしたアイテムが含まれている。
論文参考訳（メタデータ） (2021-11-05T09:21:58Z)
Dynamic-K Recommendation with Personalized Decision Boundary [41.70842736417849]
ランキングと分類の目的を併せ持つ共同学習問題として動的k推薦タスクを開発した。我々は、BPRMFとHRMの2つの最先端ランキングベースのレコメンデーション手法を対応する動的Kバージョンに拡張する。 2つのデータセットに対する実験結果から,動的Kモデルの方が従来の固定N推奨手法よりも有効であることが示された。
論文参考訳（メタデータ） (2020-12-25T13:02:57Z)
Learning over no-Preferred and Preferred Sequence of items for Robust Recommendation [66.8722561224499]
暗黙のフィードバックよりも大規模なレコメンダーシステム(RS)を訓練するための理論的に確立されたシーケンシャル戦略を提案する。本稿では、モデルパラメータをモメンタリメソッドまたはグラデーションベースのアプローチで更新するこの戦略の2つのバリエーションを紹介します。
論文参考訳（メタデータ） (2020-12-12T22:10:15Z)
Learning to Rank under Multinomial Logit Choice [6.929312022493406]
コンテンツの最適順序付けを学ぶことは、ウェブサイト設計において重要な課題である。本稿では,この問題に対する$Omega(sqrtJT)$lowbound,$tildeO(sqrtJT)$ upperbound on the regret of the UCBアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-07T16:15:12Z)
Contextual User Browsing Bandits for Large-Scale Online Mobile Recommendation [24.810164687987243]
より高い位置は、1つの商品のクリック数を増やす。まずは推奨アイテムがいくつか表示され、ユーザーは他のアイテムを閲覧するために画面をスライドする必要がある。後付けの推奨項目はユーザには見られず、このような項目を否定的な例として扱うのは適切ではない。
論文参考訳（メタデータ） (2020-08-21T08:22:30Z)
Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文参考訳（メタデータ） (2020-05-19T10:18:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。