論文の概要: Design Principles of Robust Multi-Armed Bandit Framework in Video
Recommendations
- arxiv url: http://arxiv.org/abs/2310.01419v1
- Date: Sun, 24 Sep 2023 23:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:18:13.820833
- Title: Design Principles of Robust Multi-Armed Bandit Framework in Video
Recommendations
- Title(参考訳): ビデオレコメンデーションにおけるロバストなマルチArmed Banditフレームワークの設計原理
- Authors: Belhassen Bayar, Phanideep Gampa, Ainur Yessenalina, Zhen Wen
- Abstract要約: 本稿では,メタデータ信号の変動に対してバンドレートモデルを堅牢化するための新しい設計原理を提案する。
設計選択を取り入れないベースラインバンディットモデルと比較して,相対的な利得が向上した。
特定の人気タイトルや不人気タイトルを推奨するフェアネスに関するケーススタディが提示される。
- 参考スコア(独自算出の注目度): 4.2566707664597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multi-armed bandit approaches in recommender systems (RS) have
focused more on devising effective exploration techniques, while not adequately
addressing common exploitation challenges related to distributional changes and
item cannibalization. Little work exists to guide the design of robust bandit
frameworks that can address these frequent challenges in RS. In this paper, we
propose a new design principles to (i) make bandit models robust to
time-variant metadata signals, (ii) less prone to item cannibalization, and
(iii) prevent their weights fluctuating due to data sparsity. Through a series
of experiments, we systematically examine the influence of several important
bandit design choices. We demonstrate the advantage of our proposed design
principles at making bandit models robust to dynamic behavioral changes through
in-depth analyses. Noticeably, we show improved relative gain compared to a
baseline bandit model not incorporating our design choices of up to $11.88\%$
and $44.85\%$, respectively in ROC-AUC and PR-AUC. Case studies about fairness
in recommending specific popular and unpopular titles are presented, to
demonstrate the robustness of our proposed design at addressing popularity
biases.
- Abstract(参考訳): 現在、レコメンデーションシステム(RS)におけるマルチアームバンディットアプローチは、効率的な探索手法の考案に重点を置いているが、分布の変化やアイテムの共食いに関する一般的な搾取課題には十分に対処していない。
RSにおけるこれらの頻繁な課題に対処できる堅牢なバンディットフレームワークの設計をガイドする作業はほとんどない。
本稿では,新しい設計原則を提案する。
(i)帯域モデルを時変メタデータ信号に対して堅牢にする。
(ii)食品の共食いが少ないこと、及び
(iii)データスパーシティによる体重変動を防止する。
一連の実験を通じて,いくつかの重要なバンディット設計選択の影響を体系的に検討した。
我々は,バンディットモデルを動的動作変化に頑健なものにするための設計原則の利点を,詳細な分析を通じて実証する。
特に, ROC-AUC と PR-AUC では, 設計選択の最大 $11.88\% と 444.85\% を含まないベースラインバンディットモデルと比較して, 相対的な利得が向上した。
特定の人気タイトルや不人気タイトルを推薦する際の公正性に関するケーススタディを提示し,人気バイアスに対処する上で,提案したデザインの堅牢性を示す。
関連論文リスト
- Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Certified Adversarial Defenses Meet Out-of-Distribution Corruptions:
Benchmarking Robustness and Simple Baselines [65.0803400763215]
この研究は、最先端のロバストモデルがアウト・オブ・ディストリビューションデータに遭遇した場合、敵のロバスト性がどのように変化を保証しているかを批判的に検証する。
本稿では,トレーニングデータのスペクトルカバレッジを改善するために,新たなデータ拡張方式であるFourierMixを提案する。
また,FourierMixの拡張により,様々なOODベンチマークにおいて,より優れたロバスト性保証を実現することが可能となる。
論文 参考訳(メタデータ) (2021-12-01T17:11:22Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。
我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文 参考訳(メタデータ) (2021-02-19T18:36:03Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Effects of Model Misspecification on Bayesian Bandits: Case Studies in
UX Optimization [8.704145252476705]
我々は、新しい定式化を、保存されていない共同創設者とオプションの停止を伴う、安静な睡眠バンディットとして提示する。
ケーススタディは、一般的な不特定が最適以下の報酬につながることを示している。
また、レスレスバンディットにおける結合を利用した最初のモデルを示し、有限の後悔と高速で一貫した停止が可能であることを示した。
論文 参考訳(メタデータ) (2020-10-07T14:34:28Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems [40.957688390621385]
我々のフレームワークは、アクション、潜伏変数、観察の間の複雑な統計的依存関係をキャプチャする。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-07-09T16:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。