Fugu-MT 論文翻訳(概要): $\alpha$-Fair Contextual Bandits

論文の概要: $\alpha$-Fair Contextual Bandits

arxiv url: http://arxiv.org/abs/2310.14164v1
Date: Sun, 22 Oct 2023 03:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 01:33:40.620238
Title: $\alpha$-Fair Contextual Bandits
Title（参考訳）: 価格$\alpha$-fairコンテキスト・バンディット
Authors: Siddhant Chaudhary and Abhishek Sinha
Abstract要約: コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
参考スコア（独自算出の注目度）: 10.74025233418392
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Contextual bandit algorithms are at the core of many applications, including recommender systems, clinical trials, and optimal portfolio selection. One of the most popular problems studied in the contextual bandit literature is to maximize the sum of the rewards in each round by ensuring a sublinear regret against the best-fixed context-dependent policy. However, in many applications, the cumulative reward is not the right objective - the bandit algorithm must be fair in order to avoid the echo-chamber effect and comply with the regulatory requirements. In this paper, we consider the $\alpha$-Fair Contextual Bandits problem, where the objective is to maximize the global $\alpha$-fair utility function - a non-decreasing concave function of the cumulative rewards in the adversarial setting. The problem is challenging due to the non-separability of the objective across rounds. We design an efficient algorithm that guarantees an approximately sublinear regret in the full-information and bandit feedback settings.
Abstract（参考訳）: コンテキストバンディットアルゴリズムは、推奨システム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。文脈的バンディット文学で研究される最も一般的な問題の1つは、最も固定された文脈依存ポリシーに対するサブ線形後悔を確実にすることで、各ラウンドにおける報酬の総和を最大化することである。しかし、多くの応用において累積報酬は正しい目的ではない - banditアルゴリズムはエコーチャンバー効果を避け、規制要件に従うために公平でなければならない。そこで本稿では,大域的$\alpha$-fairユーティリティ関数を最大化することを目的とした$\alpha$-fairコンテキストバンディット問題を考える。問題は、ラウンドごとの目的の非分離性のためである。我々は,全情報とバンディットフィードバックの設定において,おおよそ半線形な後悔を保証する効率的なアルゴリズムを設計する。

関連論文リスト

Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Thompson Exploration with Best Challenger Rule in Best Arm Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文参考訳（メタデータ） (2023-10-01T01:37:02Z)
Optimal Contextual Bandits with Knapsacks under Realizibility via Regression Oracles [14.634964681825197]
我々は,knapsacks (CBwK) 問題を用いてコンテキスト的帯域幅について検討し,各行動がランダムな報酬をもたらす一方で,ベクトル形式のランダムなリソース消費を犠牲にしている。本稿では,CBwKをオンライン回帰に還元することで,CBwKの汎用的かつ最適なアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-21T09:28:53Z)
Contextual bandits with concave rewards, and an application to fair ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文参考訳（メタデータ） (2022-10-18T16:11:55Z)
Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文参考訳（メタデータ） (2022-09-07T15:25:57Z)
Contextual Bandits with Smooth Regret: Efficient Learning in Continuous Action Spaces [14.366265951396587]
我々は、大規模または連続的なアクション空間に対する効率的な汎用的コンテキスト帯域幅アルゴリズムを設計する。本稿では,従来提案されていた代替案に支配的な文脈的包帯に対して,スムーズな後悔の念を抱く概念を提案する。我々のアルゴリズムは、標準的な後悔の下で以前のminimax/Paretoの最適保証を回復するために使用することができる。
論文参考訳（メタデータ） (2022-07-12T21:27:09Z)
Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-12-02T11:29:43Z)
Efficient and Optimal Algorithms for Contextual Dueling Bandits under Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文参考訳（メタデータ） (2021-11-24T07:14:57Z)
Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文参考訳（メタデータ） (2021-10-25T02:53:24Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。