論文の概要: Contextual bandits with concave rewards, and an application to fair
ranking
- arxiv url: http://arxiv.org/abs/2210.09957v1
- Date: Tue, 18 Oct 2022 16:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:01:52.827633
- Title: Contextual bandits with concave rewards, and an application to fair
ranking
- Title(参考訳): コンケーブ報酬を伴うコンテクストバンディットと公正ランキングへの応用
- Authors: Virginie Do, Elvis Dohmatob, Matteo Pirotta, Alessandro Lazaric and
Nicolas Usunier
- Abstract要約: CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
- 参考スコア(独自算出の注目度): 108.48223948875685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider Contextual Bandits with Concave Rewards (CBCR), a multi-objective
bandit problem where the desired trade-off between the rewards is defined by a
known concave objective function, and the reward vector depends on an observed
stochastic context. We present the first algorithm with provably vanishing
regret for CBCR without restrictions on the policy space, whereas prior works
were restricted to finite policy spaces or tabular representations. Our
solution is based on a geometric interpretation of CBCR algorithms as
optimization algorithms over the convex set of expected rewards spanned by all
stochastic policies. Building on Frank-Wolfe analyses in constrained convex
optimization, we derive a novel reduction from the CBCR regret to the regret of
a scalar-reward bandit problem. We illustrate how to apply the reduction
off-the-shelf to obtain algorithms for CBCR with both linear and general reward
functions, in the case of non-combinatorial actions. Motivated by fairness in
recommendation, we describe a special case of CBCR with rankings and
fairness-aware objectives, leading to the first algorithm with regret
guarantees for contextual combinatorial bandits with fairness of exposure.
- Abstract(参考訳): cbcr(concave rewards)は、既知のconcave objective関数によって報酬間の所望のトレードオフが定義され、その報酬ベクトルが観測された確率的文脈に依存する多目的バンディット問題である。
我々は, cbcrに対する後悔を, ポリシー空間の制約なく解消する最初のアルゴリズムを提案するが, 先行研究は有限方針空間や表表現に限定された。
我々の解は、全ての確率的ポリシーにまたがる期待される報酬の凸集合に対する最適化アルゴリズムとしてCBCRアルゴリズムの幾何学的解釈に基づいている。
制約付き凸最適化におけるFrank-Wolfe解析に基づいて,スカラー・逆バンディット問題に対するCBCRの後悔から,新たな減少を導出した。
非組合せ動作の場合, 線形および一般報酬関数を持つCBCRのアルゴリズムを得るために, 減量処理をオフザシェルフで適用する方法を述べる。
推薦の公平さに動機づけられたcbcrの特別な場合として,ランキングと公平さを意識した目的について述べる。
関連論文リスト
- Optimizing Sharpe Ratio: Risk-Adjusted Decision-Making in Multi-Armed Bandits [3.5502600490147196]
我々は、シャープ比(SR)が金融時系列の特徴付けにおける重要なパラメータであると考えている。
我々は、レギュレット最小化(RM)とBest Arm Identification(BAI)のために、UCB-RSSRと呼ばれるSRを最適化する新しいアルゴリズムを提案する。
UCB-RSSRは、他のSR最適化バンディットアルゴリズムであるU-UCB Cassel et al(2023)よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-28T14:24:36Z) - $\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。
文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。
本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文 参考訳(メタデータ) (2023-10-22T03:42:59Z) - Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression [65.8785736964253]
本稿では,線形制約付きコンテキスト帯域(CBwLC)について考察する。これは,アルゴリズムが全消費の線形制約を受ける複数のリソースを消費するコンテキスト帯域の変種である。
この問題はknapsacks (CBwK) を用いてコンテキスト的帯域幅を一般化し、制約のパッケージ化とカバー、および正および負のリソース消費を可能にする。
本稿では,回帰オラクルに基づくCBwLC(CBwK)のアルゴリズムについて述べる。このアルゴリズムは単純で,計算効率が良く,統計的に最適である。
論文 参考訳(メタデータ) (2022-11-14T16:08:44Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。
本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。
本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-02T11:29:43Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - A One-Size-Fits-All Solution to Conservative Bandit Problems [32.907883501286]
我々は、サンプルパス報酬制約を伴う保守的なバンディット問題(CBP)のファミリーについて研究する。
CBPに対するOne-Size-Fits-Allソリューションを提案し、その応用を3つの包括問題に提示する。
論文 参考訳(メタデータ) (2020-12-14T08:50:23Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。