論文の概要: Fair Exploration and Exploitation
- arxiv url: http://arxiv.org/abs/2411.04295v1
- Date: Wed, 06 Nov 2024 22:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:45.160312
- Title: Fair Exploration and Exploitation
- Title(参考訳): 公正な探査と爆発
- Authors: Stephen Pasteris, Chris Hicks, Vasilios Mavroudis,
- Abstract要約: 我々は、境界付き損失とは別に、文脈と損失の生成に何の仮定も存在しないという、完全に敵対的な問題を考察する。
我々の問題では、コンテキストセットが保護されたグループの集合に分割されていると仮定する。
本稿では,この問題に対するFexExアルゴリズムを開発し,その効率性について述べる。
- 参考スコア(独自算出の注目度): 4.368185344922342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we consider the contextual bandit problem with a finite (or infinite and clustered) context set. We consider the fully adversarial problem in which, apart from having bounded losses, there are no assumptions whatsoever on the generation of the contexts and losses. In our problem we assume that the context set is partitioned into a set of protected groups. At the start of each trial we are given a probability distribution over the context set and are required (on that trial) to be fair with respect to that distribution, in that if the context (for that trial) was drawn from the distribution then our choice of action would be unbiased towards any protected group. We develop an algorithm FexEx for this problem which has remarkable efficiency, having a space and per-trial time complexity at most linear in the dimensionality of the policy space. FexEx can handle non-stationarity, in that its regret can be bounded with respect to any sequence of policies satisfying the fairness constraints. For such a sequence the regret bound of FexEx is essentially the same as that of running Exp3.S for each context independently (an approach that does not satisfy the fairness constraints).
- Abstract(参考訳): 本稿では、有限(あるいは無限でクラスタ化された)コンテキスト集合を持つ文脈的帯域問題について考察する。
我々は、境界付き損失の他に、文脈や損失の発生に何の仮定も存在しないという、完全に敵対的な問題を考察する。
我々の問題では、コンテキストセットが保護されたグループの集合に分割されていると仮定する。
それぞれのトライアルの開始時に、我々は文脈集合上の確率分布を与えられ、その分布に関して公平であるように要求される(そのトライアルにおいて)。
我々は,この問題に対するFexExアルゴリズムを開発した。このアルゴリズムは,政策空間の次元において,空間と裁判所ごとの時間的複雑さを最大に線形に持つ,顕著な効率性を有する。
FexEx は非定常性を扱うことができ、その後悔は公正性制約を満たす任意のポリシーの列に関して境界づけられる。
そのような順序に対して、FexEx の遺言境界は、本質的に各文脈に対して Exp3.S を独立に実行するものと同じである(公平性制約を満たさないアプローチ)。
関連論文リスト
- Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。
我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。
提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文 参考訳(メタデータ) (2025-02-06T18:51:28Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Treatment of Statistical Estimation Problems in Randomized Smoothing for Adversarial Robustness [0.0]
ランダムな平滑化のための統計的推定問題について検討し,計算負担の有無を確かめる。
本稿では,標準手法と同じ統計的保証を享受する信頼度系列を用いた推定手法を提案する。
厳密な認証を行うために,Clopper-Pearson信頼区間のランダム化版を提供する。
論文 参考訳(メタデータ) (2024-06-25T14:00:55Z) - Differentially Private Post-Processing for Fair Regression [13.855474876965557]
我々のアルゴリズムは任意の回帰器を後処理し、出力を再マッピングすることで公平性を向上させることができる。
我々は,本アルゴリズムのサンプル複雑性を分析し,ヒストグラム中のビン数の選択から得られる統計的バイアスと分散とのトレードオフを明らかにする。
論文 参考訳(メタデータ) (2024-05-07T06:09:37Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Inference for an Algorithmic Fairness-Accuracy Frontier [0.9147443443422864]
We provide a consistent estimator for a theoretical fairness-accuracy frontier forward by Liang, Lu and Mu (2023)
フェアネス文学で注目されている仮説を検証するための推論手法を提案する。
サンプルサイズが大きくなるにつれて, 推定された支持関数が密なプロセスに収束することを示す。
論文 参考訳(メタデータ) (2024-02-14T00:56:09Z) - Contextual Bandits with Stage-wise Constraints [46.412612374393895]
段階的制約(各ラウンドにおける制約)の存在下での文脈的包帯について検討する。
本稿では,この問題に対する高信頼度有界アルゴリズムを提案し,それに対するT$ラウンドの後悔を証明した。
論文 参考訳(メタデータ) (2024-01-15T23:58:21Z) - Optimal cross-learning for contextual bandits with unknown context
distributions [28.087360479901978]
本稿では,バルセイロ等のクロスラーニング環境において,文脈的包括的アルゴリズムを設計する際の問題点について考察する。
コンテクスト数によらずに$widetildeO(sqrtTK)$というほぼ厳密な(対数的要因まで)後悔境界を持つ効率的なアルゴリズムを提供する。
アルゴリズムのコアとなるのは,複数のエポックにまたがるアルゴリズムの実行をコーディネートする新しい手法である。
論文 参考訳(メタデータ) (2024-01-03T18:02:13Z) - Stability is Stable: Connections between Replicability, Privacy, and
Adaptive Generalization [26.4468964378511]
複製可能なアルゴリズムは、そのランダム性が固定されたときに高い確率で同じ出力を与える。
データ解析にレプリカブルアルゴリズムを使用することで、公開結果の検証が容易になる。
我々は、複製性とアルゴリズム安定性の標準概念との新たな接続と分離を確立する。
論文 参考訳(メタデータ) (2023-03-22T21:35:50Z) - Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear
Bandit Algorithms [39.70492757288025]
我々は,意思決定者がコンテキストを提供するコンテキスト線形帯域問題に対処する。
文脈問題を線形バンディット問題として解くことができることを示す。
この結果から,文脈的線形包帯に対して$O(dsqrtTlog T)$高確率残差が生じることが示唆された。
論文 参考訳(メタデータ) (2022-11-08T22:18:53Z) - Reproducible Bandits [95.8830340560603]
バンディット環境におけるポリシーは、2つの異なる実行において全く同じ腕列を高い確率で引き出すと再現可能と呼ばれる。
再現可能なポリシが存在するだけでなく、時間的地平線の観点から、ほぼ同じ(再現不可能な)後悔境界を達成することを示す。
以上の結果から,無作為化が探索・探索トレードオフに不可欠であるにもかかわらず,同一の腕を2回の異なるラウンドで引き抜いて最適なバランスをとれることが示唆された。
論文 参考訳(メタデータ) (2022-10-04T20:36:45Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Learning in Distributed Contextual Linear Bandits Without Sharing the
Context [39.70492757288025]
文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。
本稿では,分散メモリレス文脈線形帯域学習問題について考察する。
論文 参考訳(メタデータ) (2022-06-08T22:07:01Z) - Stochastic Conservative Contextual Linear Bandits [8.684768561839146]
不確実性の下での安全なリアルタイム意思決定の問題について検討する。
我々は、リアルタイム意思決定のための保守的な文脈的帯域幅の定式化を定式化する。
論文 参考訳(メタデータ) (2022-03-29T14:50:50Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Relative Deviation Margin Bounds [55.22251993239944]
我々はRademacher複雑性の観点から、分布依存と一般家庭に有効な2種類の学習境界を与える。
有限モーメントの仮定の下で、非有界な損失関数に対する分布依存的一般化境界を導出する。
論文 参考訳(メタデータ) (2020-06-26T12:37:17Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Beyond the Mean-Field: Structured Deep Gaussian Processes Improve the
Predictive Uncertainties [12.068153197381575]
高速収束を達成しつつ、潜在過程間の共分散を維持できる新しい変分族を提案する。
新しいアプローチの効率的な実装を提供し、それをいくつかのベンチマークデータセットに適用します。
優れた結果をもたらし、最先端の代替品よりも精度とキャリブレーションされた不確実性推定とのバランスが良くなる。
論文 参考訳(メタデータ) (2020-05-22T11:10:59Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。