論文の概要: Impatient Bandits: Optimizing for the Long-Term Without Delay
- arxiv url: http://arxiv.org/abs/2307.09943v1
- Date: Wed, 19 Jul 2023 12:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 14:08:13.840196
- Title: Impatient Bandits: Optimizing for the Long-Term Without Delay
- Title(参考訳): 入院バンド : 遅延を伴わない長期的最適化
- Authors: Thomas McDonald, Lucas Maystre, Mounia Lalmas, Daniel Russo, Kamil
Ciosek
- Abstract要約: 本稿では,遅延報酬を伴うマルチアームバンディット問題として定式化したコンテンツ探索課題について検討する。
これまでに得られたすべての情報を組み込んだ遅延報酬の予測モデルを開発した。
提案手法をポッドキャストレコメンデーション問題に適用し,ユーザが2ヶ月以上繰り返し参加する番組を特定する。
- 参考スコア(独自算出の注目度): 29.23091752603817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems are a ubiquitous feature of online platforms.
Increasingly, they are explicitly tasked with increasing users' long-term
satisfaction. In this context, we study a content exploration task, which we
formalize as a multi-armed bandit problem with delayed rewards. We observe that
there is an apparent trade-off in choosing the learning signal: Waiting for the
full reward to become available might take several weeks, hurting the rate at
which learning happens, whereas measuring short-term proxy rewards reflects the
actual long-term goal only imperfectly. We address this challenge in two steps.
First, we develop a predictive model of delayed rewards that incorporates all
information obtained to date. Full observations as well as partial (short or
medium-term) outcomes are combined through a Bayesian filter to obtain a
probabilistic belief. Second, we devise a bandit algorithm that takes advantage
of this new predictive model. The algorithm quickly learns to identify content
aligned with long-term success by carefully balancing exploration and
exploitation. We apply our approach to a podcast recommendation problem, where
we seek to identify shows that users engage with repeatedly over two months. We
empirically validate that our approach results in substantially better
performance compared to approaches that either optimize for short-term proxies,
or wait for the long-term outcome to be fully realized.
- Abstract(参考訳): リコメンダシステムは、オンラインプラットフォームのユビキタスな機能である。
利用者の長期的満足度向上に特化している。
本稿では,遅延報酬を伴うマルチアームバンディット問題として定式化したコンテンツ探索課題について検討する。
我々は、学習信号の選択に明らかなトレードオフがあることを観察した。 完全な報酬が利用可能になるのを待つのに数週間かかり、学習の開始率を損なう可能性がある一方で、短期的なプロキシの報酬を測定することは、実際の長期的な目標を不完全に反映する。
この課題を2つのステップで解決する。
まず,これまでに得られた情報をすべて組み込んだ遅延報酬の予測モデルを開発する。
完全な観測と部分的な(短命または中期的な)結果がベイズフィルタを通して組み合わせられ、確率論的信念が得られる。
第二に、この新たな予測モデルを利用する帯域幅アルゴリズムを考案する。
このアルゴリズムは、探索とエクスプロイトを慎重にバランスさせて、長期的成功に対応するコンテンツを素早く特定する。
このアプローチをポッドキャストのレコメンデーション問題に適用し,ユーザが2ヶ月以上繰り返し関与している番組を識別する。
短期プロキシを最適化するアプローチや、長期的な結果が完全に実現されるのを待つアプローチと比較して、我々のアプローチがはるかに優れたパフォーマンスをもたらすことを実証的に検証する。
関連論文リスト
- Long-term Off-Policy Evaluation and Learning [21.047613223586794]
アルゴリズムの短期的および長期的な結果はしばしば異なり、下流効果を損なう。
関心の長期的な結果を見るのに数ヶ月かそれ以上かかるので、アルゴリズムの選択プロセスは受け入れがたいほど遅くなります。
本稿では,報酬関数の分解に基づく長期オフライン評価(LOPE)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T06:59:59Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Are We Wasting Time? A Fast, Accurate Performance Evaluation Framework
for Knowledge Graph Link Predictors [4.31947784387967]
より大規模な知識グラフでは、ランク付けプロセスは急速に重くなります。
従来のアプローチでは、エンティティのランダムサンプリングを使用して、メソッドによって予測または提案されるリンクの品質を評価していた。
得られた評価基準が真の結果を適切に反映していないため,本手法には深刻な限界があることが示されている。
本稿では,リレーショナルリコメンデータを用いて候補の選択を誘導するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T15:44:46Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Learning to Bid Long-Term: Multi-Agent Reinforcement Learning with
Long-Term and Sparse Reward in Repeated Auction Games [5.865500664175491]
本稿では,潜在的に競合する短期報酬と,遅延した長期報酬のバランスをとるマルチエージェント分散強化学習アルゴリズムを提案する。
我々は、個人報酬と社会福祉全体の最大化のためにアルゴリズムにインセンティブを与えるために、異なる長期報酬を比較した。
論文 参考訳(メタデータ) (2022-04-05T15:02:28Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。