論文の概要: Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts
- arxiv url: http://arxiv.org/abs/2309.13896v1
- Date: Mon, 25 Sep 2023 06:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:51:10.139107
- Title: Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts
- Title(参考訳): フォローアップも重要:ポストサービスコンテキストによるコンテキスト帯域の改善
- Authors: Chaoqi Wang, Ziyu Ye, Zhe Feng, Ashwinkumar Badanidiyuru, Haifeng Xu
- Abstract要約: 本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。
我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。
合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
- 参考スコア(独自算出の注目度): 31.33919659549256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard contextual bandit problem assumes that all the relevant contexts are
observed before the algorithm chooses an arm. This modeling paradigm, while
useful, often falls short when dealing with problems in which valuable
additional context can be observed after arm selection. For example, content
recommendation platforms like Youtube, Instagram, Tiktok also observe valuable
follow-up information pertinent to the user's reward after recommendation
(e.g., how long the user stayed, what is the user's watch speed, etc.). To
improve online learning efficiency in these applications, we study a novel
contextual bandit problem with post-serving contexts and design a new
algorithm, poLinUCB, that achieves tight regret under standard assumptions.
Core to our technical proof is a robustified and generalized version of the
well-known Elliptical Potential Lemma (EPL), which can accommodate noise in
data. Such robustification is necessary for tackling our problem, and we
believe it could also be of general interest. Extensive empirical tests on both
synthetic and real-world datasets demonstrate the significant benefit of
utilizing post-serving contexts as well as the superior performance of our
algorithm over the state-of-the-art approaches.
- Abstract(参考訳): 標準的なコンテキストバンドイット問題は、アルゴリズムがアームを選択する前にすべての関連するコンテキストが観測されると仮定する。
このモデリングパラダイムは有用ではあるが、腕の選択後に付加的なコンテキストが観察できる問題を扱う際にしばしば不足する。
例えば、Youtube、Instagram、Tiktokといったコンテンツレコメンデーションプラットフォームは、レコメンデーション後のユーザの報酬に関連する貴重なフォローアップ情報(ユーザの滞在時間、ユーザのウォッチスピードなど)も観察する。
これらの応用におけるオンライン学習効率を向上させるために, 待ち行列を用いた新しい文脈帯域幅問題について検討し, 標準前提下での深い後悔を実現する新しいアルゴリズム, poLinUCB を設計する。
技術的証明の核となるのは、よく知られた楕円ポテンシャル補題(EPL)の堅牢で一般化されたバージョンで、データのノイズを許容できる。
このような堅牢化は私たちの問題に取り組む上で必要であり、一般の関心事でもあると考えています。
合成データと実世界のデータセットの両方に対する広範な実証テストは、保存後のコンテキストを利用するという大きなメリットと、最先端のアプローチよりも優れたアルゴリズムのパフォーマンスを示しています。
関連論文リスト
- Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble
Sampling [15.88678122212934]
文脈的包帯の現実世界の応用は、季節性、セレンディピティー、進化する社会トレンドによって、しばしば非定常性を示す。
これらの問題に対処する新しい非定常文脈帯域幅アルゴリズムを提案する。
スケーラブルでディープ・ニューラル・ネットワークベースのアーキテクチャと、慎重に設計された探索機構を組み合わせる。
論文 参考訳(メタデータ) (2023-10-11T18:15:55Z) - Leveraging User-Triggered Supervision in Contextual Bandits [34.58466163463977]
本研究では,コンテキスト的帯域幅(CB)問題について検討する。
我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。
論文 参考訳(メタデータ) (2023-02-07T22:42:27Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Improving Sequential Query Recommendation with Immediate User Feedback [9.294562590924242]
本稿では,対話型データ探索設定における次のクエリレコメンデーションのためのアルゴリズムを提案する。
最先端のクエリレコメンデーションアルゴリズムは、シーケンスからシーケンスへの学習アプローチに基づいている。
人気のあるオンライン文献発見サービスからログファイルを用いて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-12T18:19:24Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-05T22:30:21Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - Learning User Preferences in Non-Stationary Environments [42.785926822853746]
オンラインノンステーショナリーレコメンデーションシステムのための新しいモデルを紹介します。
好みが変化しない場合でも,我々のアルゴリズムが他の静的アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-29T10:26:16Z) - Recurrent Neural-Linear Posterior Sampling for Nonstationary Contextual
Bandits [9.877980800275507]
本稿では,エージェントと環境間のインタラクションの生履歴のみに基づいて,意思決定の関連状況を表現する手法を提案する。
このアプローチは、リカレントニューラルネットワークによって抽出された特徴と、後続サンプリングに基づく文脈線形帯域アルゴリズムの組み合わせに依存する。
論文 参考訳(メタデータ) (2020-07-09T12:46:51Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。