論文の概要: Cascading Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.08961v2
- Date: Thu, 15 Feb 2024 22:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:19:20.603324
- Title: Cascading Reinforcement Learning
- Title(参考訳): カスケード強化学習
- Authors: Yihan Du, R. Srikant, Wei Chen
- Abstract要約: カスケードバンディットモデルでは、各タイムステップにおいて、エージェントはアイテムのプールから注文されたアイテムのサブセットを推奨し、それぞれが未知のアトラクション確率に関連付けられている。
本稿では,ユーザ状態と状態遷移が意思決定に与える影響を考慮し,一般化されたカスケーディングRLフレームワークを提案する。
カスケード RL では、大きなアトラクション確率を持つだけでなく、優れた後継状態につながる項目を選択する必要がある。
そこで我々はCascadingVIとCascadingBPIの2つのアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 23.902095912976264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cascading bandits have gained popularity in recent years due to their
applicability to recommendation systems and online advertising. In the
cascading bandit model, at each timestep, an agent recommends an ordered subset
of items (called an item list) from a pool of items, each associated with an
unknown attraction probability. Then, the user examines the list, and clicks
the first attractive item (if any), and after that, the agent receives a
reward. The goal of the agent is to maximize the expected cumulative reward.
However, the prior literature on cascading bandits ignores the influences of
user states (e.g., historical behaviors) on recommendations and the change of
states as the session proceeds. Motivated by this fact, we propose a
generalized cascading RL framework, which considers the impact of user states
and state transition into decisions. In cascading RL, we need to select items
not only with large attraction probabilities but also leading to good successor
states. This imposes a huge computational challenge due to the combinatorial
action space. To tackle this challenge, we delve into the properties of value
functions, and design an oracle BestPerm to efficiently find the optimal item
list. Equipped with BestPerm, we develop two algorithms CascadingVI and
CascadingBPI, which are both computationally-efficient and sample-efficient,
and provide near-optimal regret and sample complexity guarantees. Furthermore,
we present experiments to show the improved computational and sample
efficiencies of our algorithms compared to straightforward adaptations of
existing RL algorithms in practice.
- Abstract(参考訳): cascading banditsは、レコメンデーションシステムやオンライン広告に適用できるため、近年人気を集めている。
カスケーディング・バンディット・モデルでは、各段階においてエージェントはアイテムのプールからアイテムの順序付きサブセット(アイテムリストと呼ばれる)を推奨し、それぞれが未知のアトラクション確率に関連付けられている。
そして、ユーザがリストを調べて、最初の魅力的なアイテム(もしあれば)をクリックし、その後、エージェントは報酬を受け取る。
エージェントの目標は、期待される累積報酬を最大化することです。
しかし、カスケードの盗賊に関する以前の文献は、セッションが進むにつれて、レコメンデーションや状態の変化に対するユーザー状態(例えば歴史的な行動)の影響を無視している。
この事実を動機として,ユーザ状態と状態遷移が意思決定に与える影響を考慮し,一般化されたカスケードRLフレームワークを提案する。
カスケードRLでは、大きなアトラクション確率を持つだけでなく、優れた後継状態につながる項目を選択する必要がある。
これは組合せ作用空間のために大きな計算上の困難を課す。
この課題に対処するため、我々は値関数の特性を調べ、最適な項目リストを効率的に見つけるためにBestPermを設計します。
BestPermを組み込んだCascadingVIとCascadingBPIの2つのアルゴリズムを開発した。
さらに,既存のrlアルゴリズムの直接適応と比較して,アルゴリズムの計算効率およびサンプル効率が向上することを示す実験を行った。
関連論文リスト
- Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning [16.287067991245962]
現実世界のシステムでは、新しいモデルに対する重要な考慮は、トップkレコメンデーションの新規性である。
本稿では,大規模言語モデルが新しい項目に対するフィードバックを提供する強化学習(RL)の定式化を提案する。
大規模検索エンジンにおけるクエリーアドレコメンデーションタスクの新規性向上のための提案アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-06-20T10:20:02Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Fast online ranking with fairness of exposure [29.134493256287072]
このアルゴリズムは計算が高速で、ソート演算が支配的であり、メモリ効率が良く、理論的な保証も強いことを示します。
ユーザ側のパフォーマンスを最大化する基本方針と比較して,提案アルゴリズムは,計算オーバーヘッドが無視できるような推奨事項に,露出基準の複雑な公平性を組み込むことができる。
論文 参考訳(メタデータ) (2022-09-13T12:35:36Z) - Efficient and Accurate Top-$K$ Recovery from Choice Data [1.14219428942199]
レコメンデーションシステムのようないくつかのアプリケーションでは、統計学者は主に大量のアイテムから上位のアイテムの集合を回収することに興味がある。
そこで本稿では,K$-recoveryの高速かつ高精度なランキングアルゴリズムとして,選択に基づくボルダカウントアルゴリズムを提案する。
選択に基づくボルダカウントアルゴリズムは,多種多様なランダム効用モデルの下で,上位$Kの回収に最適なサンプル複雑性を有することを示す。
論文 参考訳(メタデータ) (2022-06-23T22:05:08Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - CRACT: Cascaded Regression-Align-Classification for Robust Visual
Tracking [97.84109669027225]
改良された提案改良モジュールCascaded Regression-Align- Classification (CRAC)を導入する。
CRACは多くのベンチマークで最先端のパフォーマンスを得る。
OTB-2015、UAV123、NfS、VOT-2018、TrackingNet、GOT-10k、LaSOTを含む7つのベンチマークの実験において、我々のCRACTは最先端の競合他社と比較して非常に有望な結果を示している。
論文 参考訳(メタデータ) (2020-11-25T02:18:33Z) - An Efficient Algorithm for Cooperative Semi-Bandits [0.0]
本稿では,有名なFollow The Perturbed Leaderアルゴリズムの協調バージョンであるCoop-FTPLを紹介する。
T 時間ステップ後のアルゴリズムの期待された後悔は QT log(k)(k$alpha$ 1 /Q + m) であり、Q は総アクティベーション確率質量である。
論文 参考訳(メタデータ) (2020-10-05T07:08:26Z) - Best Arm Identification for Cascading Bandits in the Fixed Confidence
Setting [81.70513857417106]
CascadeBAIを設計し、分析する。これは、$K$アイテムのベストセットを見つけるアルゴリズムである。
CascadeBAIの時間的複雑さの上限は、決定的な分析課題を克服することによって導かれる。
その結果,カスケードBAIの性能は,時間的複雑性の低い境界の導出により,いくつかの実践的状況において最適であることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T16:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。