論文の概要: Diversified Recommendations for Agents with Adaptive Preferences
- arxiv url: http://arxiv.org/abs/2210.07773v1
- Date: Tue, 20 Sep 2022 16:12:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 21:01:01.934076
- Title: Diversified Recommendations for Agents with Adaptive Preferences
- Title(参考訳): 適応的嗜好を有するエージェントの多角的推奨
- Authors: Arpit Agarwal, William Brown
- Abstract要約: エージェントが選択するコンテンツのメニューを推薦するプラットフォームを訪れる場合、アイテムの選択は特定の好みだけでなく、プラットフォームとの事前の関わりにも依存する。
RecommenderはAgensに$k$アイテムのメニューを提示し、未知の好みモデルに従ってメニュー内の1つのアイテムを選択する。
その後、レコメンダーはエージェントの選択したアイテムを観察し、アイテムの報酬の盗聴フィードバックを受け取る。
選択したアイテムからの報酬の最適化に加えて、リコメンダーは選択したアイテムの合計分布が十分に高いエントロピーを持つことを保証する必要がある。
- 参考スコア(独自算出の注目度): 9.578114969867258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When an Agent visits a platform recommending a menu of content to select
from, their choice of item depends not only on fixed preferences, but also on
their prior engagements with the platform. The Recommender's primary objective
is typically to encourage content consumption which optimizes some reward, such
as ad revenue, but they often also aim to ensure that a wide variety of content
is consumed by the Agent over time. We formalize this problem as an adversarial
bandit task. At each step, the Recommender presents a menu of $k$ (out of $n$)
items to the Agent, who selects one item in the menu according to their unknown
preference model, which maps their history of past items to relative selection
probabilities. The Recommender then observes the Agent's chosen item and
receives bandit feedback of the item's reward. In addition to optimizing reward
from selected items, the Recommender must also ensure that the total
distribution of chosen items has sufficiently high entropy.
We define a class of preference models which are locally learnable, i.e.
behavior over the entire domain can be estimated by only observing behavior in
a small region; this includes models representable by bounded-degree
polynomials as well as functions with a sparse Fourier basis. For this class,
we give an algorithm for the Recommender which obtains $\tilde{O}(T^{3/4})$
regret against all item distributions satisfying two conditions: they are
sufficiently diversified, and they are instantaneously realizable at any
history by some distribution over menus. We show that these conditions are
closely connected: all sufficiently high-entropy distributions are
instantaneously realizable at any item history. We also give a set of negative
results justifying our assumptions, in the form of a runtime lower bound for
non-local learning and linear regret lower bounds for alternate benchmarks.
- Abstract(参考訳): エージェントが選択するコンテンツのメニューを推薦するプラットフォームを訪問したとき、アイテムの選択は、固定された好みだけでなく、プラットフォームとの以前のエンゲージメントにも依存する。
Recommenderの主な目的は、通常、広告収入などの報酬を最適化するコンテンツ消費を促進することであるが、エージェントが時間をかけて幅広いコンテンツを消費することを保証することもしばしば目的としている。
我々はこの問題を敵対的バンディットタスクとして定式化する。
各ステップで、レコメンダは、エージェントに$k$ (out of $n$)アイテムのメニューを表示し、そのエージェントは、その未知の選好モデルに従ってメニュー内の1つのアイテムを選択し、過去のアイテムの履歴を相対的な選択確率にマップする。
その後、レコメンダーはエージェントの選択したアイテムを観察し、アイテムの報酬の盗聴フィードバックを受け取る。
選択したアイテムからの報酬の最適化に加えて、リコメンダーは選択したアイテムの合計分布が十分に高いエントロピーを持つことを保証する必要がある。
局所的に学習可能な選好モデルのクラスを定義する。すなわち、領域全体の振舞いは、小さな領域の振舞いを観察するだけで推定できる。
このクラスに対して、我々はRecommenderに対して、メニュー上のいくつかの分布によって、十分に多様化し、任意の履歴において瞬時に実現可能であるという2つの条件を満たす全てのアイテム分布に対して、$\tilde{O}(T^{3/4})$後悔を与えるアルゴリズムを与える。
十分に高エントロピー分布は、あらゆる項目の歴史において瞬時に実現可能である。
また、非ローカル学習のランタイムローバウンドと代替ベンチマークの線形後悔ローバウンドという形で、仮定を正当化するネガティブな結果も与えています。
関連論文リスト
- Preference Diffusion for Recommendation [50.8692409346126]
DMベースのレコメンデータに適した最適化対象であるPreferDiffを提案する。
PreferDiffは、BPRをログライクなランキング目標に変換することで、ユーザの好みをよりよく把握する。
これはDMベースのレコメンデーション向けに特別に設計された、パーソナライズされたランキングの損失である。
論文 参考訳(メタデータ) (2024-10-17T01:02:04Z) - Dot Product is All You Need: Bridging the Gap Between Item Recommendation and Link Prediction [18.153652861826917]
本稿では,項目推薦問題をリンク予測問題の事例とみなすことができることを示す。
これらの予測精度は,10種類の最先端レコメンデーションモデルと競合することを示す。
論文 参考訳(メタデータ) (2024-09-11T17:27:04Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Proxy-based Item Representation for Attribute and Context-aware
Recommendation [8.669754546617293]
本稿では、各項目を学習可能なプロキシ埋め込みの重み付け和として表現できるプロキシベースのアイテム表現を提案する。
プロキシベースの手法は、アイテムの表現を構成的に計算し、各表現がよく訓練された単純体内に存在することを保証する。
提案手法は,任意のニューラルネットワークベースレコメンデーションモデルのアイテムエンコーディング層を置き換えることができるプラグアンドプレイモデルである。
論文 参考訳(メタデータ) (2023-12-11T06:22:34Z) - Thou Shalt not Pick all Items if Thou are First: of Strategyproof and
Fair Picking Sequences [7.2834950390171205]
受信した項目数と順序の優先順位のバランスをとる方法について検討する。
パラメータの有意義な選択については、最適なシーケンスを簡単な方法で計算できることが示される。
論文 参考訳(メタデータ) (2023-01-11T13:04:51Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Set2setRank: Collaborative Set to Set Ranking for Implicit Feedback
based Recommendation [59.183016033308014]
本稿では,暗黙的フィードバックの特徴を探究し,推奨するSet2setRankフレームワークを提案する。
提案するフレームワークはモデルに依存しず,ほとんどの推奨手法に容易に適用できる。
論文 参考訳(メタデータ) (2021-05-16T08:06:22Z) - Adaptive Cascade Submodular Maximization [19.29174615532181]
本研究では,適応条件下でのカスケード部分モジュラー問題について検討する。
本研究の目的は,選択項目の有効性を最大化するために,選択項目の最適シーケンスを特定することである。
論文 参考訳(メタデータ) (2020-07-07T16:21:56Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。