論文の概要: Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation
- arxiv url: http://arxiv.org/abs/2004.01136v2
- Date: Mon, 6 Apr 2020 16:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:36:16.774856
- Title: Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation
- Title(参考訳): 資源制約に基づくレコメンデーションのための階層的適応的コンテキスト帯域
- Authors: Mengyue Yang, Qingyang Li, Zhiwei Qin, Jieping Ye
- Abstract要約: コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
- 参考スコア(独自算出の注目度): 49.69139684065241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual multi-armed bandit (MAB) achieves cutting-edge performance on a
variety of problems. When it comes to real-world scenarios such as
recommendation system and online advertising, however, it is essential to
consider the resource consumption of exploration. In practice, there is
typically non-zero cost associated with executing a recommendation (arm) in the
environment, and hence, the policy should be learned with a fixed exploration
cost constraint. It is challenging to learn a global optimal policy directly,
since it is a NP-hard problem and significantly complicates the exploration and
exploitation trade-off of bandit algorithms. Existing approaches focus on
solving the problems by adopting the greedy policy which estimates the expected
rewards and costs and uses a greedy selection based on each arm's expected
reward/cost ratio using historical observation until the exploration resource
is exhausted. However, existing methods are hard to extend to infinite time
horizon, since the learning process will be terminated when there is no more
resource. In this paper, we propose a hierarchical adaptive contextual bandit
method (HATCH) to conduct the policy learning of contextual bandits with a
budget constraint. HATCH adopts an adaptive method to allocate the exploration
resource based on the remaining resource/time and the estimation of reward
distribution among different user contexts. In addition, we utilize full of
contextual feature information to find the best personalized recommendation.
Finally, in order to prove the theoretical guarantee, we present a regret bound
analysis and prove that HATCH achieves a regret bound as low as $O(\sqrt{T})$.
The experimental results demonstrate the effectiveness and efficiency of the
proposed method on both synthetic data sets and the real-world applications.
- Abstract(参考訳): コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
しかし、レコメンデーションシステムやオンライン広告といった現実世界のシナリオにおいては、探索の資源消費を考えることが不可欠である。
実際には、通常、環境においてレコメンデーション(arm)の実行に関連するコストはゼロではありません。
NPハード問題であり、バンディットアルゴリズムの探索とエクスプロイトのトレードオフを著しく複雑化するため、グローバルな最適政策を直接学習することは困難である。
既存のアプローチは、期待される報酬とコストを見積もる欲求政策を採用し、探査資源が枯渇するまで、各アームの予測報酬/コスト比に基づいて欲求選択を用いることに焦点を当てている。
しかし、学習プロセスはリソースがなければ終了するので、既存の手法は無限の時間水平線にまで拡張するのは難しい。
本稿では,予算制約を伴うコンテキストバンディットのポリシー学習を行うための階層的適応型コンテキストバンディット法(hatch)を提案する。
HATCHは、残りのリソース/時間と異なるユーザコンテキスト間の報酬分布の推定に基づいて、探索リソースを割り当てる適応的手法を採用する。
さらに,コンテキスト情報に満ちた特徴情報を用いて,最適なパーソナライズレコメンデーションを求める。
最後に、理論的な保証を証明するために、後悔束縛解析を示し、HATCH が$O(\sqrt{T})$ 以下の後悔束を得たことを証明する。
実験結果は,合成データセットと実世界のアプリケーションの両方における提案手法の有効性と有効性を示す。
関連論文リスト
- A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - A Bandit Approach to Online Pricing for Heterogeneous Edge Resource
Allocation [8.089950414444115]
ヘテロジニアスなエッジリソース割り当てのための2つの新しいオンライン価格設定機構が提案されている。
このメカニズムはリアルタイムで動作し、需要分布に関する事前の知識を必要としない。
提案した価格体系では, 利用者が好みのリソースを選択し, 支払うことができ, 観測された履歴データに基づいて動的に資源価格を調整できる。
論文 参考訳(メタデータ) (2023-02-14T10:21:14Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Online Allocation with Two-sided Resource Constraints [44.5635910908944]
我々は,要求が順次到着する,リソース制約の低いオンラインアロケーション問題を考える。
提案手法では, リクエスト全体を知るオフライン問題に対して, 1-O (fracepsilonalpha-epsilon)$-competitive ratioを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-28T02:21:06Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。