論文の概要: Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation
- arxiv url: http://arxiv.org/abs/2311.15647v1
- Date: Mon, 27 Nov 2023 09:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:26:41.561080
- Title: Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation
- Title(参考訳): オンラインレコメンデーションにおけるクリックベイト対策のためのメカニズム設計
- Authors: Thomas Kleine Buening and Aadirupa Saha and Christos Dimitrakakis and
Haifeng Xu
- Abstract要約: 我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
- 参考スコア(独自算出の注目度): 50.469872635246176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a strategic variant of the multi-armed bandit problem, which we coin
the strategic click-bandit. This model is motivated by applications in online
recommendation where the choice of recommended items depends on both the
click-through rates and the post-click rewards. Like in classical bandits,
rewards follow a fixed unknown distribution. However, we assume that the
click-rate of each arm is chosen strategically by the arm (e.g., a host on
Airbnb) in order to maximize the number of times it gets clicked. The algorithm
designer does not know the post-click rewards nor the arms' actions (i.e.,
strategically chosen click-rates) in advance, and must learn both values over
time. To solve this problem, we design an incentive-aware learning algorithm,
UCB-S, which achieves two goals simultaneously: (a) incentivizing desirable arm
behavior under uncertainty; (b) minimizing regret by learning unknown
parameters. We characterize all approximate Nash equilibria among arms under
UCB-S and show a $\tilde{\mathcal{O}} (\sqrt{KT})$ regret bound uniformly in
every equilibrium. We also show that incentive-unaware algorithms generally
fail to achieve low regret in the strategic click-bandit. Finally, we support
our theoretical results by simulations of strategic arm behavior which confirm
the effectiveness and robustness of our proposed incentive design.
- Abstract(参考訳): 我々は,マルチアームバンディット問題の戦略的変種について検討し,戦略クリックバンディットを考案した。
このモデルは、推奨アイテムの選択がクリックスルー率とクリック後報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられる。
古典的なバンディットと同様に、報酬は一定の未知の分布に従う。
しかし、各アームのクリックレートは、クリック回数を最大化するために、arm(例えばairbnbのホスト)によって戦略的に選択されていると仮定します。
アルゴリズムデザイナは、事前にクリック後の報酬や腕の動き(すなわち、戦略的に選択されたクリックレート)を知らないため、時間とともに両方の値を学ぶ必要がある。
そこで本研究では,2つの目標を同時に達成するインセンティブ認識学習アルゴリズムucb-sを設計する。
a) 不確実性の下で望ましい腕の振舞いを動機付けること
(b)未知のパラメータの学習による後悔の最小化。
UCB-Sの下でのアーム間の近似ナッシュ平衡を特徴付け、全ての平衡において一様に有界な$\tilde{\mathcal{O}} (\sqrt{KT})$後悔を示す。
また, インセンティブを意識しないアルゴリズムは, 戦略的クリックバンド化において, 一般的に低い後悔を達成できないことを示した。
最後に,提案するインセンティブ設計の有効性とロバスト性を確認する戦略アーム挙動のシミュレーションにより,理論結果を裏付ける。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Online Learning in Contextual Second-Price Pay-Per-Click Auctions [47.06746975822902]
オンライン学習は、クリック単価のオークションで学習し、そこでは、各ラウンドのT$で、学習者がいくつかのコンテキストと広告を受信する。
学習者のゴールは、彼女の後悔を最小限に抑えることであり、それは彼女の総収入と託宣戦略のギャップとして定義される。
論文 参考訳(メタデータ) (2023-10-08T07:04:22Z) - Best arm identification in rare events [0.43012765978447565]
このフレームワークのキーとなる応用は、オンライン広告において、広告のクリックレートが1パーセントのごく一部であり、売上への最終的な転換率は高い利益であるが、再びクリックレートのごく一部になるかもしれない。
近年,BAI問題に対するアルゴリズムが開発され,正確なアーム選択に関する統計的保証を提供しながら,サンプルの複雑さを最小化している。
両腕の報酬過程は複合ポアソン法によりよく近似され、より高速なアルゴリズムに到達し、サンプルの複雑さはわずかに増大する。
論文 参考訳(メタデータ) (2023-03-14T04:51:24Z) - Incentivized Bandit Learning with Self-Reinforcing User Preferences [9.233886766950054]
本稿では,多くのレコメンデーションシステムにおける実世界の現象を考慮したマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する。
我々は「At-Least-$n$ Explore-Then-Commit」と「UCB-List」という2つのMABポリシーを提案する。
両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。
論文 参考訳(メタデータ) (2021-05-19T01:06:32Z) - Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。
我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文 参考訳(メタデータ) (2021-03-03T23:08:59Z) - Combinatorial Bandits under Strategic Manipulations [25.882801456026584]
報奨の戦略的操作下でのマルチアームバンディット(cmab)の問題点について検討し,各アームは自己の利益のために報奨信号を変更することができる。
私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。
論文 参考訳(メタデータ) (2021-02-25T07:57:27Z) - Near Optimal Adversarial Attacks on Stochastic Bandits and Defenses with Smoothed Responses [2.296475290901356]
本論文では2つの結果について述べる。
私はUCBとThompson Samplingに対する攻撃戦略を設計し、$widehatO(sqrtlog T)$コストしか使っていません。
スムーズな分析と行動経済学に関する文献に触発されて、私は2つの単純なアルゴリズムを示し、任意の比を1に近く達成する。
論文 参考訳(メタデータ) (2020-08-21T05:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。