論文の概要: Impatient Bandits: Optimizing for the Long-Term Without Delay
- arxiv url: http://arxiv.org/abs/2501.07761v1
- Date: Tue, 14 Jan 2025 00:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:47.346264
- Title: Impatient Bandits: Optimizing for the Long-Term Without Delay
- Title(参考訳): 入院バンド : 遅延を伴わない長期的最適化
- Authors: Kelly W. Zhang, Thomas Baldwin-McDonald, Kamil Ciosek, Lucas Maystre, Daniel Russo,
- Abstract要約: 本稿では,遅延報酬を伴う盗賊問題として定式化したコンテンツ探索課題について検討する。
これまでに得られたすべての情報を組み込んだ遅延報酬の予測モデルを開発した。
我々は,長期的成功に対応するコンテンツの識別を素早く学習するバンディットアルゴリズムを考案した。
- 参考スコア(独自算出の注目度): 20.753692240620644
- License:
- Abstract: Increasingly, recommender systems are tasked with improving users' long-term satisfaction. In this context, we study a content exploration task, which we formalize as a bandit problem with delayed rewards. There is an apparent trade-off in choosing the learning signal: waiting for the full reward to become available might take several weeks, slowing the rate of learning, whereas using short-term proxy rewards reflects the actual long-term goal only imperfectly. First, we develop a predictive model of delayed rewards that incorporates all information obtained to date. Rewards as well as shorter-term surrogate outcomes are combined through a Bayesian filter to obtain a probabilistic belief. Second, we devise a bandit algorithm that quickly learns to identify content aligned with long-term success using this new predictive model. We prove a regret bound for our algorithm that depends on the \textit{Value of Progressive Feedback}, an information theoretic metric that captures the quality of short-term leading indicators that are observed prior to the long-term reward. We apply our approach to a podcast recommendation problem, where we seek to recommend shows that users engage with repeatedly over two months. We empirically validate that our approach significantly outperforms methods that optimize for short-term proxies or rely solely on delayed rewards, as demonstrated by an A/B test in a recommendation system that serves hundreds of millions of users.
- Abstract(参考訳): 推奨システムは、ユーザの長期的な満足度の向上を課題としている。
本稿では,遅延報酬を伴う盗賊問題として定式化したコンテンツ探索課題について検討する。
学習信号の選択には明らかなトレードオフがある: すべての報酬が利用可能になるのを待つには数週間かかるかもしれない。
まず,これまでに得られた情報をすべて組み込んだ遅延報酬の予測モデルを開発する。
リワードと短期サロゲートの結果はベイズフィルタを通して組み合わせられ、確率論的信念を得る。
第2に,この新たな予測モデルを用いて,長期的成功に対応するコンテンツの同定を迅速に学習する帯域幅アルゴリズムを考案する。
我々は,長期報酬の前に観測される短期的先行指標の品質を捉える情報理論の指標である「進歩的フィードバックのtextit{Value of Progressive Feedback}」に依存するアルゴリズムに対する後悔の束縛を証明した。
ポッドキャストレコメンデーション問題にアプローチを適用することで,ユーザが2ヶ月以上にわたって繰り返し参加することを示すことを推奨します。
我々は,A/Bテストで示されるように,短期的プロキシの最適化や遅延報酬のみに依存する手法が,数億のユーザを対象とするレコメンデーションシステムにおいて,我々のアプローチが著しく優れていることを実証的に検証した。
関連論文リスト
- Long-term Off-Policy Evaluation and Learning [21.047613223586794]
アルゴリズムの短期的および長期的な結果はしばしば異なり、下流効果を損なう。
関心の長期的な結果を見るのに数ヶ月かそれ以上かかるので、アルゴリズムの選択プロセスは受け入れがたいほど遅くなります。
本稿では,報酬関数の分解に基づく長期オフライン評価(LOPE)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T06:59:59Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Are We Wasting Time? A Fast, Accurate Performance Evaluation Framework
for Knowledge Graph Link Predictors [4.31947784387967]
より大規模な知識グラフでは、ランク付けプロセスは急速に重くなります。
従来のアプローチでは、エンティティのランダムサンプリングを使用して、メソッドによって予測または提案されるリンクの品質を評価していた。
得られた評価基準が真の結果を適切に反映していないため,本手法には深刻な限界があることが示されている。
本稿では,リレーショナルリコメンデータを用いて候補の選択を誘導するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T15:44:46Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Impatient Bandits: Optimizing Recommendations for the Long-Term Without
Delay [29.23091752603817]
本稿では,遅延報酬を伴うマルチアームバンディット問題として定式化したコンテンツ探索課題について検討する。
これまでに得られたすべての情報を組み込んだ遅延報酬の予測モデルを開発した。
提案手法をポッドキャストレコメンデーション問題に適用し,ユーザが2ヶ月以上繰り返し参加する番組を特定する。
論文 参考訳(メタデータ) (2023-07-19T12:35:16Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。