論文の概要: Meritocratic Fairness in Budgeted Combinatorial Multi-armed Bandits via Shapley Values
- arxiv url: http://arxiv.org/abs/2605.00762v1
- Date: Fri, 01 May 2026 16:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.011984
- Title: Meritocratic Fairness in Budgeted Combinatorial Multi-armed Bandits via Shapley Values
- Title(参考訳): 混成多武器バンドにおける共有価値によるメリトクラテスフェアネス
- Authors: Shradha Sharma, Swapnil Dhamal, Shweta Jain,
- Abstract要約: 本報告では,全帯域フィードバックによる予算付き多武装バンディットにおけるメリット主義的公正性のための新しい枠組みを提案する。
まず、協調ゲーム理論から古典解の概念であるShapley値を$K$-Shapley値に拡張する。
フェアネスを意識したK-SVFair-FBFを提案する。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new framework for meritocratic fairness in budgeted combinatorial multi-armed bandits with full-bandit feedback (BCMAB-FBF). Unlike semi-bandit feedback, the contribution of individual arms is not received in full-bandit feedback, making the setting significantly more challenging. To compute arm contributions in BCMAB-FBF, we first extend the Shapley value, a classical solution concept from cooperative game theory, to the $K$-Shapley value, which captures the marginal contribution of an agent restricted to a set of size at most $K$. We show that $K$-Shapley value is a unique solution concept that satisfies Symmetry, Linearity, Null player, and efficiency properties. We next propose K-SVFair-FBF, a fairness-aware bandit algorithm that adaptively estimates $K$-Shapley value with unknown valuation function. Unlike standard bandit literature on full bandit feedback, K-SVFair-FBF not only learns the valuation function under full feedback setting but also mitigates the noise arising from Monte Carlo approximations. Theoretically, we prove that K-SVFair-FBF achieves $O(T^{3/4})$ regret bound on fairness regret. Through experiments on federated learning and social influence maximization datasets, we demonstrate that our approach achieves fairness and performs more effectively than existing baselines.
- Abstract(参考訳): 本稿では,BCMAB-FBF(Full-bandit feedback)を用いた複合型多腕包帯における長所主義的公正性のための新しい枠組みを提案する。
半バンドフィードバックとは異なり、個々の腕の貢献は完全なバンドフィードバックでは受けられず、設定が著しく困難になる。
BCMAB-FBFにおけるアームコントリビューションを計算するために、まず協調ゲーム理論から古典解の概念であるShapley値を$K$-Shapley値に拡張する。
我々は、$K$-Shapley値が対称性、線形性、Nullプレーヤ、効率性を満足するユニークな解の概念であることを示す。
次に、フェアネスを意識した帯域幅推定アルゴリズムK-SVFair-FBFを提案する。
K-SVFair-FBFは、完全な帯域幅フィードバックに関する標準的な帯域幅の文献とは異なり、完全なフィードバック設定の下で評価関数を学習するだけでなく、モンテカルロ近似から生じる雑音を緩和する。
理論的には、K-SVFair-FBFが公正な後悔に縛られて$O(T^{3/4})の後悔を達成することを証明している。
フェデレーション学習と社会的影響の最大化データセットの実験を通じて,本手法は,既存のベースラインよりも公平さを達成し,効果的に機能することが実証された。
関連論文リスト
- Antithetic Sampling for Top-k Shapley Identification [19.221081896134567]
説明可能なAIの内外におけるShapleyの価値は、その公理的な特異性に起因している。
ほとんどの研究は、すべての特徴のShapley値の均一な近似を調査し、無意味な特徴のサンプルを不必要に消費する。
対照的に、$k$の最も重要な特徴を特定することは、既に十分に洞察に富むものであり、多武装の盗賊の分野と結びついたアルゴリズム的機会を活用する可能性をもたらす。
論文 参考訳(メタデータ) (2025-04-02T15:38:32Z) - Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Combinatorial Bandits for Maximum Value Reward Function under Max
Value-Index Feedback [9.771002043127728]
本稿では,最大値報酬関数に対する最大値と指数フィードバックに基づくマルチアームバンディット問題を考察する。
有限なサポートを持つ任意の分布にしたがって、アーム結果を持つ問題インスタンスに対して、アルゴリズムを提案し、後悔の束縛を与える。
我々のアルゴリズムは、$O(((k/Delta)log(T))$ distribution-dependent と $tildeO(sqrtT)$ distribution-independent regret を達成する。
論文 参考訳(メタデータ) (2023-05-25T14:02:12Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms [59.8188496313214]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。
まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。
次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T13:09:39Z) - A One-Size-Fits-All Solution to Conservative Bandit Problems [32.907883501286]
我々は、サンプルパス報酬制約を伴う保守的なバンディット問題(CBP)のファミリーについて研究する。
CBPに対するOne-Size-Fits-Allソリューションを提案し、その応用を3つの包括問題に提示する。
論文 参考訳(メタデータ) (2020-12-14T08:50:23Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。