論文の概要: Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts
- arxiv url: http://arxiv.org/abs/2309.13896v1
- Date: Mon, 25 Sep 2023 06:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:51:10.139107
- Title: Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts
- Title(参考訳): フォローアップも重要:ポストサービスコンテキストによるコンテキスト帯域の改善
- Authors: Chaoqi Wang, Ziyu Ye, Zhe Feng, Ashwinkumar Badanidiyuru, Haifeng Xu
- Abstract要約: 本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。
我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。
合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
- 参考スコア(独自算出の注目度): 31.33919659549256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard contextual bandit problem assumes that all the relevant contexts are
observed before the algorithm chooses an arm. This modeling paradigm, while
useful, often falls short when dealing with problems in which valuable
additional context can be observed after arm selection. For example, content
recommendation platforms like Youtube, Instagram, Tiktok also observe valuable
follow-up information pertinent to the user's reward after recommendation
(e.g., how long the user stayed, what is the user's watch speed, etc.). To
improve online learning efficiency in these applications, we study a novel
contextual bandit problem with post-serving contexts and design a new
algorithm, poLinUCB, that achieves tight regret under standard assumptions.
Core to our technical proof is a robustified and generalized version of the
well-known Elliptical Potential Lemma (EPL), which can accommodate noise in
data. Such robustification is necessary for tackling our problem, and we
believe it could also be of general interest. Extensive empirical tests on both
synthetic and real-world datasets demonstrate the significant benefit of
utilizing post-serving contexts as well as the superior performance of our
algorithm over the state-of-the-art approaches.
- Abstract(参考訳): 標準的なコンテキストバンドイット問題は、アルゴリズムがアームを選択する前にすべての関連するコンテキストが観測されると仮定する。
このモデリングパラダイムは有用ではあるが、腕の選択後に付加的なコンテキストが観察できる問題を扱う際にしばしば不足する。
例えば、Youtube、Instagram、Tiktokといったコンテンツレコメンデーションプラットフォームは、レコメンデーション後のユーザの報酬に関連する貴重なフォローアップ情報(ユーザの滞在時間、ユーザのウォッチスピードなど)も観察する。
これらの応用におけるオンライン学習効率を向上させるために, 待ち行列を用いた新しい文脈帯域幅問題について検討し, 標準前提下での深い後悔を実現する新しいアルゴリズム, poLinUCB を設計する。
技術的証明の核となるのは、よく知られた楕円ポテンシャル補題(EPL)の堅牢で一般化されたバージョンで、データのノイズを許容できる。
このような堅牢化は私たちの問題に取り組む上で必要であり、一般の関心事でもあると考えています。
合成データと実世界のデータセットの両方に対する広範な実証テストは、保存後のコンテキストを利用するという大きなメリットと、最先端のアプローチよりも優れたアルゴリズムのパフォーマンスを示しています。
関連論文リスト
- PageRank Bandits for Link Prediction [72.61386754332776]
リンク予測は、リコメンダシステムやナレッジグラフ補完といった幅広いアプリケーションを用いたグラフ学習において重要な問題である。
本稿では,リンク予測を逐次的意思決定プロセスとして再構成し,各リンク予測インタラクションを逐次的に行う。
本稿では,PageRankとコンテキスト的帯域を結合した新しい融合アルゴリズム PRB (PageRank Bandits) を提案する。
論文 参考訳(メタデータ) (2024-11-03T02:39:28Z) - Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Large Language Models for Next Point-of-Interest Recommendation [53.93503291553005]
位置情報ベースのソーシャルネットワーク(LBSN)データは、しばしば次のPoint of Interest(POI)レコメンデーションタスクに使用される。
しばしば無視される課題の1つは、LBSNデータに存在する豊富なコンテキスト情報を効果的に利用する方法である。
本稿では,この課題に対処するために,LLM(Large Language Models)を用いたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T13:28:36Z) - Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble
Sampling [15.88678122212934]
文脈的包帯の現実世界の応用は、季節性、セレンディピティー、進化する社会トレンドによって、しばしば非定常性を示す。
これらの問題に対処する新しい非定常文脈帯域幅アルゴリズムを提案する。
スケーラブルでディープ・ニューラル・ネットワークベースのアーキテクチャと、慎重に設計された探索機構を組み合わせる。
論文 参考訳(メタデータ) (2023-10-11T18:15:55Z) - Leveraging User-Triggered Supervision in Contextual Bandits [34.58466163463977]
本研究では,コンテキスト的帯域幅(CB)問題について検討する。
我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。
論文 参考訳(メタデータ) (2023-02-07T22:42:27Z) - Improving Sequential Query Recommendation with Immediate User Feedback [6.925738064847176]
本稿では,対話型データ探索設定における次のクエリレコメンデーションのためのアルゴリズムを提案する。
人気のあるオンライン文献発見サービスからログファイルを用いて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-12T18:19:24Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。