論文の概要: Stochastic Bandits for Egalitarian Assignment
- arxiv url: http://arxiv.org/abs/2410.05856v1
- Date: Tue, 8 Oct 2024 09:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:30:00.623511
- Title: Stochastic Bandits for Egalitarian Assignment
- Title(参考訳): Egalitarian Assignment のための確率帯域
- Authors: Eugene Lim, Vincent Y. F. Tan, Harold Soh,
- Abstract要約: 我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
- 参考スコア(独自算出の注目度): 58.33714486693828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study EgalMAB, an egalitarian assignment problem in the context of stochastic multi-armed bandits. In EgalMAB, an agent is tasked with assigning a set of users to arms. At each time step, the agent must assign exactly one arm to each user such that no two users are assigned to the same arm. Subsequently, each user obtains a reward drawn from the unknown reward distribution associated with its assigned arm. The agent's objective is to maximize the minimum expected cumulative reward among all users over a fixed horizon. This problem has applications in areas such as fairness in job and resource allocations, among others. We design and analyze a UCB-based policy EgalUCB and establish upper bounds on the cumulative regret. In complement, we establish an almost-matching policy-independent impossibility result.
- Abstract(参考訳): 確率的多武装バンディットの文脈における平等的代入問題であるEgalMABについて検討する。
EgalMABでは、エージェントが一連のユーザーを武器に割り当てる。
各ステップでエージェントは、同じアームに2人のユーザが割り当てられないように、正確に1つのアームを各ユーザに割り当てなければならない。
その後、各ユーザは、割り当てられた腕に関連する未知の報酬分布から引き出された報酬を取得する。
エージェントの目的は、固定された地平線上での全ユーザーの最小累積報酬を最大化することである。
この問題は、仕事の公平さやリソース割り当てなどの分野に応用されている。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
補完として、ほぼ一致しない政策非依存の不合理性結果を確立する。
関連論文リスト
- Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - Constrained Best Arm Identification in Grouped Bandits [3.387374559368306]
そこで本研究では,各アームが複数の独立したサブアームから構成されるグループバンドセットについて検討する。
我々は、腕が実現可能であるとみなすためには、その属性のすべての平均報酬が指定された閾値を超えるべきであるという制約を課す。
ゴールは、固定された信頼設定において、実現可能な腕のセットの中で、属性の平均的な報酬が最大となる腕を見つけることである。
論文 参考訳(メタデータ) (2024-12-11T02:19:19Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Repeated Principal-Agent Games with Unobserved Agent Rewards and
Perfect-Knowledge Agents [5.773269033551628]
マルチアーム・バンディット(MAB)フレームワークにおいて,繰り返しプリンシパルエージェントゲームを行うシナリオについて検討する。
我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。
我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。
論文 参考訳(メタデータ) (2023-04-14T21:57:16Z) - Near-Optimal Collaborative Learning in Bandits [15.456561090871244]
本稿では,各エージェントが有限個のアームに対向する一般マルチエージェントバンディットモデルを提案する。
ツイストは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。
純粋探索のための近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-31T21:11:47Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Combinatorial Blocking Bandits with Stochastic Delays [33.65025386998747]
最近の研究は、各腕の報酬が最後の引き抜きから経過した時間の特別な機能であるマルチアームバンディット問題の自然変化を考察している。
本研究では, 上記のモデルを2つの方向に拡張する。 (i) 各ラウンドで複数の腕を演奏できる汎用的な設定を, 実現可能性制約の下で検討する。
我々は、利用可能な(非ブロック化された)アームの中で、常に最大で期待される報酬を再生する自然な欲求部分集合の近似を厳密に分析する。
腕の期待報酬が不明な場合、上記のアルゴリズムを盗賊に適応させる。
論文 参考訳(メタデータ) (2021-05-22T02:46:04Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。