論文の概要: Fair Exploration and Exploitation
- arxiv url: http://arxiv.org/abs/2411.04295v1
- Date: Wed, 06 Nov 2024 22:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:06.707500
- Title: Fair Exploration and Exploitation
- Title(参考訳): 公正な探査と爆発
- Authors: Stephen Pasteris, Chris Hicks, Vasilios Mavroudis,
- Abstract要約: 我々は、境界付き損失とは別に、文脈と損失の生成に何の仮定も存在しないという、完全に敵対的な問題を考察する。
我々の問題では、コンテキストセットが保護されたグループの集合に分割されていると仮定する。
本稿では,この問題に対するFexExアルゴリズムを開発し,その効率性について述べる。
- 参考スコア(独自算出の注目度): 4.368185344922342
- License:
- Abstract: In this paper we consider the contextual bandit problem with a finite (or infinite and clustered) context set. We consider the fully adversarial problem in which, apart from having bounded losses, there are no assumptions whatsoever on the generation of the contexts and losses. In our problem we assume that the context set is partitioned into a set of protected groups. At the start of each trial we are given a probability distribution over the context set and are required (on that trial) to be fair with respect to that distribution, in that if the context (for that trial) was drawn from the distribution then our choice of action would be unbiased towards any protected group. We develop an algorithm FexEx for this problem which has remarkable efficiency, having a space and per-trial time complexity at most linear in the dimensionality of the policy space. FexEx can handle non-stationarity, in that its regret can be bounded with respect to any sequence of policies satisfying the fairness constraints. For such a sequence the regret bound of FexEx is essentially the same as that of running Exp3.S for each context independently (an approach that does not satisfy the fairness constraints).
- Abstract(参考訳): 本稿では、有限(あるいは無限でクラスタ化された)コンテキスト集合を持つ文脈的帯域問題について考察する。
我々は、境界付き損失の他に、文脈や損失の発生に何の仮定も存在しないという、完全に敵対的な問題を考察する。
我々の問題では、コンテキストセットが保護されたグループの集合に分割されていると仮定する。
それぞれのトライアルの開始時に、我々は文脈集合上の確率分布を与えられ、その分布に関して公平であるように要求される(そのトライアルにおいて)。
我々は,この問題に対するFexExアルゴリズムを開発した。このアルゴリズムは,政策空間の次元において,空間と裁判所ごとの時間的複雑さを最大に線形に持つ,顕著な効率性を有する。
FexEx は非定常性を扱うことができ、その後悔は公正性制約を満たす任意のポリシーの列に関して境界づけられる。
そのような順序に対して、FexEx の遺言境界は、本質的に各文脈に対して Exp3.S を独立に実行するものと同じである(公平性制約を満たさないアプローチ)。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Contextual Bandits with Stage-wise Constraints [46.412612374393895]
段階的制約(各ラウンドにおける制約)の存在下での文脈的包帯について検討する。
本稿では,この問題に対する高信頼度有界アルゴリズムを提案し,それに対するT$ラウンドの後悔を証明した。
論文 参考訳(メタデータ) (2024-01-15T23:58:21Z) - Optimal cross-learning for contextual bandits with unknown context
distributions [28.087360479901978]
本稿では,バルセイロ等のクロスラーニング環境において,文脈的包括的アルゴリズムを設計する際の問題点について考察する。
コンテクスト数によらずに$widetildeO(sqrtTK)$というほぼ厳密な(対数的要因まで)後悔境界を持つ効率的なアルゴリズムを提供する。
アルゴリズムのコアとなるのは,複数のエポックにまたがるアルゴリズムの実行をコーディネートする新しい手法である。
論文 参考訳(メタデータ) (2024-01-03T18:02:13Z) - Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear
Bandit Algorithms [39.70492757288025]
我々は,意思決定者がコンテキストを提供するコンテキスト線形帯域問題に対処する。
文脈問題を線形バンディット問題として解くことができることを示す。
この結果から,文脈的線形包帯に対して$O(dsqrtTlog T)$高確率残差が生じることが示唆された。
論文 参考訳(メタデータ) (2022-11-08T22:18:53Z) - Reproducible Bandits [95.8830340560603]
バンディット環境におけるポリシーは、2つの異なる実行において全く同じ腕列を高い確率で引き出すと再現可能と呼ばれる。
再現可能なポリシが存在するだけでなく、時間的地平線の観点から、ほぼ同じ(再現不可能な)後悔境界を達成することを示す。
以上の結果から,無作為化が探索・探索トレードオフに不可欠であるにもかかわらず,同一の腕を2回の異なるラウンドで引き抜いて最適なバランスをとれることが示唆された。
論文 参考訳(メタデータ) (2022-10-04T20:36:45Z) - Learning in Distributed Contextual Linear Bandits Without Sharing the
Context [39.70492757288025]
文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。
本稿では,分散メモリレス文脈線形帯域学習問題について考察する。
論文 参考訳(メタデータ) (2022-06-08T22:07:01Z) - Stochastic Conservative Contextual Linear Bandits [8.684768561839146]
不確実性の下での安全なリアルタイム意思決定の問題について検討する。
我々は、リアルタイム意思決定のための保守的な文脈的帯域幅の定式化を定式化する。
論文 参考訳(メタデータ) (2022-03-29T14:50:50Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Relative Deviation Margin Bounds [55.22251993239944]
我々はRademacher複雑性の観点から、分布依存と一般家庭に有効な2種類の学習境界を与える。
有限モーメントの仮定の下で、非有界な損失関数に対する分布依存的一般化境界を導出する。
論文 参考訳(メタデータ) (2020-06-26T12:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。