論文の概要: Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications
- arxiv url: http://arxiv.org/abs/2408.14432v2
- Date: Wed, 28 Aug 2024 12:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 12:58:09.298816
- Title: Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications
- Title(参考訳): ハーディング効果のあるコンテキスト帯域:アルゴリズムと勧告応用
- Authors: Luyue Xu, Liming Wang, Hong Xie, Mingqiang Zhou,
- Abstract要約: ハーディングエフェクト」は、ユーザのフィードバックを歴史的評価に偏り、文脈的包帯に固有の偏りのないフィードバックの仮定を分解する。
本報告では, 群れ効果によるフィードバックバイアスに対処するために, 文脈的包帯の新たな変種を考案する。
TS-Confは,遺伝効果の負の影響を効果的に軽減し,学習の高速化と推奨精度の向上を図った。
- 参考スコア(独自算出の注目度): 17.865143559133994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandits serve as a fundamental algorithmic framework for optimizing recommendation decisions online. Though extensive attention has been paid to tailoring contextual bandits for recommendation applications, the "herding effects" in user feedback have been ignored. These herding effects bias user feedback toward historical ratings, breaking down the assumption of unbiased feedback inherent in contextual bandits. This paper develops a novel variant of the contextual bandit that is tailored to address the feedback bias caused by the herding effects. A user feedback model is formulated to capture this feedback bias. We design the TS-Conf (Thompson Sampling under Conformity) algorithm, which employs posterior sampling to balance the exploration and exploitation tradeoff. We prove an upper bound for the regret of the algorithm, revealing the impact of herding effects on learning speed. Extensive experiments on datasets demonstrate that TS-Conf outperforms four benchmark algorithms. Analysis reveals that TS-Conf effectively mitigates the negative impact of herding effects, resulting in faster learning and improved recommendation accuracy.
- Abstract(参考訳): コンテキスト帯域幅は、オンラインのレコメンデーション決定を最適化するための基本的なアルゴリズムのフレームワークとして機能する。
推奨アプリケーションのためのコンテキスト的帯域幅を調整するために、広範囲に注意が払われているが、ユーザフィードバックの"ハーディングエフェクト"は無視されている。
これらのハーディング効果は、ユーザーのフィードバックを歴史的評価に偏り、文脈的盗聴に固有の偏りのないフィードバックの仮定を分解する。
本報告では, 群れ効果によるフィードバックバイアスに対処するために, 文脈的包帯の新たな変種を考案する。
このフィードバックバイアスを捉えるために、ユーザフィードバックモデルが定式化されます。
我々は、探索と悪用のトレードオフのバランスをとるために後続サンプリングを利用するTS-Confアルゴリズムを設計する。
我々は,アルゴリズムが学習速度に与える影響を明らかにすることによって,アルゴリズムの後悔に対する上限を証明した。
データセットに関する大規模な実験は、TS-Confが4つのベンチマークアルゴリズムを上回っていることを示している。
解析の結果、TS-Confは遺伝効果の負の影響を効果的に軽減し、学習の高速化と推奨精度の向上をもたらすことが明らかとなった。
関連論文リスト
- Algorithmic Drift: A Simulation Framework to Study the Effects of Recommender Systems on User Preferences [7.552217586057245]
本稿では,長期シナリオにおけるユーザ-リコメンダ間のインタラクションを模倣するシミュレーションフレームワークを提案する。
本稿では,ユーザの嗜好に対するアルゴリズムの影響を定量化する2つの新しい指標について紹介する。
論文 参考訳(メタデータ) (2024-09-24T21:54:22Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - DPR: An Algorithm Mitigate Bias Accumulation in Recommendation feedback
loops [41.21024436158042]
フィードバックループと未知の露出メカニズムが推奨品質とユーザエクスペリエンスに与える影響について検討した。
本研究では,動的再重み付けを用いてクロスエフェクトを緩和する非バイアスアルゴリズムである動的パーソナライズランキング(textbfDPR)を提案する。
提案手法は,フィードバックループと未知の露出機構の負の効果を緩和するものである。
論文 参考訳(メタデータ) (2023-11-10T04:36:00Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Existence conditions for hidden feedback loops in online recommender
systems [0.0]
ユーザの関心事における不確実性とノイズがフィードバックループの存在にどのように影響するかを検討する。
ユーザ興味をリセットする非ゼロ確率は、フィードバックループを制限し、効果の大きさを推定するのに十分である。
論文 参考訳(メタデータ) (2021-09-11T13:30:08Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Probabilistic and Variational Recommendation Denoising [56.879165033014026]
暗黙のフィードバックから学ぶことは、推奨システムの適用において最も一般的なケースの1つである。
本稿では,暗黙のフィードバックに対する確率的・変動的推薦を提案する。
提案したDPIとDVAEを4つの最先端レコメンデーションモデルに適用し、3つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-05-20T08:59:44Z) - Learning Multiclass Classifier Under Noisy Bandit Feedback [6.624726878647541]
本研究では,非バイアス推定手法に基づく雑音の多い帯域フィードバックに対処する新しい手法を提案する。
いくつかのベンチマークデータセットに対する広範な実験により,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-05T16:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。