論文の概要: Stochastic Bandits for Egalitarian Assignment
- arxiv url: http://arxiv.org/abs/2410.05856v1
- Date: Tue, 8 Oct 2024 09:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:30:00.623511
- Title: Stochastic Bandits for Egalitarian Assignment
- Title(参考訳): Egalitarian Assignment のための確率帯域
- Authors: Eugene Lim, Vincent Y. F. Tan, Harold Soh,
- Abstract要約: 我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
- 参考スコア(独自算出の注目度): 58.33714486693828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study EgalMAB, an egalitarian assignment problem in the context of stochastic multi-armed bandits. In EgalMAB, an agent is tasked with assigning a set of users to arms. At each time step, the agent must assign exactly one arm to each user such that no two users are assigned to the same arm. Subsequently, each user obtains a reward drawn from the unknown reward distribution associated with its assigned arm. The agent's objective is to maximize the minimum expected cumulative reward among all users over a fixed horizon. This problem has applications in areas such as fairness in job and resource allocations, among others. We design and analyze a UCB-based policy EgalUCB and establish upper bounds on the cumulative regret. In complement, we establish an almost-matching policy-independent impossibility result.
- Abstract(参考訳): 確率的多武装バンディットの文脈における平等的代入問題であるEgalMABについて検討する。
EgalMABでは、エージェントが一連のユーザーを武器に割り当てる。
各ステップでエージェントは、同じアームに2人のユーザが割り当てられないように、正確に1つのアームを各ユーザに割り当てなければならない。
その後、各ユーザは、割り当てられた腕に関連する未知の報酬分布から引き出された報酬を取得する。
エージェントの目的は、固定された地平線上での全ユーザーの最小累積報酬を最大化することである。
この問題は、仕事の公平さやリソース割り当てなどの分野に応用されている。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
補完として、ほぼ一致しない政策非依存の不合理性結果を確立する。
関連論文リスト
- Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Optimal Regret Bounds for Collaborative Learning in Bandits [10.76667043339504]
一般的な協調型マルチエージェント・マルチアーム・バンディット・モデルにおける後悔について考察する。
このモデルの下では、順序最適後悔境界を持つ最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-15T10:36:13Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Repeated Principal-Agent Games with Unobserved Agent Rewards and
Perfect-Knowledge Agents [5.773269033551628]
マルチアーム・バンディット(MAB)フレームワークにおいて,繰り返しプリンシパルエージェントゲームを行うシナリオについて検討する。
我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。
我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。
論文 参考訳(メタデータ) (2023-04-14T21:57:16Z) - Near-Optimal Collaborative Learning in Bandits [15.456561090871244]
本稿では,各エージェントが有限個のアームに対向する一般マルチエージェントバンディットモデルを提案する。
ツイストは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。
純粋探索のための近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-31T21:11:47Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Combinatorial Blocking Bandits with Stochastic Delays [33.65025386998747]
最近の研究は、各腕の報酬が最後の引き抜きから経過した時間の特別な機能であるマルチアームバンディット問題の自然変化を考察している。
本研究では, 上記のモデルを2つの方向に拡張する。 (i) 各ラウンドで複数の腕を演奏できる汎用的な設定を, 実現可能性制約の下で検討する。
我々は、利用可能な(非ブロック化された)アームの中で、常に最大で期待される報酬を再生する自然な欲求部分集合の近似を厳密に分析する。
腕の期待報酬が不明な場合、上記のアルゴリズムを盗賊に適応させる。
論文 参考訳(メタデータ) (2021-05-22T02:46:04Z) - Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。
我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文 参考訳(メタデータ) (2021-03-03T23:08:59Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。