論文の概要: Fair Exploration via Axiomatic Bargaining
- arxiv url: http://arxiv.org/abs/2106.02553v1
- Date: Fri, 4 Jun 2021 15:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:19:21.906630
- Title: Fair Exploration via Axiomatic Bargaining
- Title(参考訳): オキシマティックバーゲティングによる公正な探索
- Authors: Jackie Baek, Vivek F. Farias
- Abstract要約: 我々は、多腕バンディットの文脈でナッシュバーゲインソリューションを開発した。
一方、このような政策下での「公正の価格」は限定的である一方で、残念な最適政策は一般的な条件下では任意に不公平であることを示す。
- 参考スコア(独自算出の注目度): 4.644923443649426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the consideration of fairly sharing the cost of exploration
between multiple groups in learning problems, we develop the Nash bargaining
solution in the context of multi-armed bandits. Specifically, the 'grouped'
bandit associated with any multi-armed bandit problem associates, with each
time step, a single group from some finite set of groups. The utility gained by
a given group under some learning policy is naturally viewed as the reduction
in that group's regret relative to the regret that group would have incurred
'on its own'. We derive policies that yield the Nash bargaining solution
relative to the set of incremental utilities possible under any policy. We show
that on the one hand, the 'price of fairness' under such policies is limited,
while on the other hand, regret optimal policies are arbitrarily unfair under
generic conditions. Our theoretical development is complemented by a case study
on contextual bandits for warfarin dosing where we are concerned with the cost
of exploration across multiple races and age groups.
- Abstract(参考訳): 学習問題における複数のグループ間の探索コストの公平な共有を考慮し,多腕バンディットの文脈におけるナッシュ交渉ソリューションを開発した。
具体的には、任意の多重武装バンディット問題に付随する「群」バンディットは、時間ステップごとに、ある有限群の集合からの1つの群である。
ある学習方針の下である集団が得た効用は、その集団が「自分自身で」引き起こしたであろう後悔に対して、その集団の後悔の減少と見なされる。
我々は、いかなる政策でも可能なインクリメンタルユーティリティの集合に対してnash交渉ソリューションを提供するポリシーを導出する。
一方,このような政策の下での「公正価格」は限定的であり,一方,後悔的最適政策は総体的条件下では任意に不公平であることを示す。
我々の理論的発展は、複数の人種や年齢集団をまたがる探検のコストを懸念するウォーファリン服用の文脈的包帯に関するケーススタディによって補完される。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Group Meritocratic Fairness in Linear Contextual Bandits [32.15680917495674]
エージェントがプールから1つの候補を選択し、各候補がセンシティブなグループに属するという線形文脈帯域問題について検討する。
エージェントのポリシーは、最も高い相対ランクの候補を選択する際に公平であることを示す公平性の概念を提案する。
論文 参考訳(メタデータ) (2022-06-07T09:54:38Z) - Normative Disagreement as a Challenge for Cooperative AI [56.34005280792013]
典型的な協調誘導学習アルゴリズムは、問題の解決に協力することができないと論じる。
我々は,ノルム適応政策のクラスを開発し,これらが協調性を著しく向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-27T11:37:42Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Black Loans Matter: Distributionally Robust Fairness for Fighting
Subgroup Discrimination [23.820606347327686]
貸付におけるアルゴリズム的公正性は、保護されたグループ間の統計的公平性を監視するためにグループフェアネスの指標に依存する。
このアプローチは、代理によるサブグループ差別に対して脆弱であり、銀行員に法的、評判の高い損害の重大なリスクをもたらす。
われわれはこの問題を、米国における歴史的および残酷な人種差別の背景から、利用可能なトレーニングデータ全てを汚染する動機付けている。
論文 参考訳(メタデータ) (2020-11-27T21:04:07Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Contextual Bandit with Missing Rewards [27.066965426355257]
文脈に基づく決定に関連付けられた報酬が必ずしも観測されないような、文脈的包帯問題の新しい変種を考察する。
この新しい問題は、臨床試験や広告レコメンデーションアプリケーションを含む特定のオンライン設定によって動機付けられている。
本稿では,クラスタリングのような教師なし学習機構と,標準的な文脈的帯域幅アプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-07-13T13:29:51Z) - Meta-Learning Bandit Policies by Gradient Ascent [38.817374110000735]
バンディットポリシーは、環境パラメータの事前分布を仮定して、あらゆる問題の場合やベイズ的な意味での後悔を最小限に抑えるように設計されている。
本稿では,この2つの極端の間に生じる帯域幅の問題について検討する。
本稿では,パラメータ化バンディットポリシーの利用法を提案する。
論文 参考訳(メタデータ) (2020-06-09T07:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。