論文の概要: Dominate or Delete: Decentralized Competing Bandits in Serial
Dictatorship
- arxiv url: http://arxiv.org/abs/2006.15166v2
- Date: Fri, 12 Mar 2021 20:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:29:51.194930
- Title: Dominate or Delete: Decentralized Competing Bandits in Serial
Dictatorship
- Title(参考訳): 支配または削除:シリアルディクタトリーにおける分散競合バンド
- Authors: Abishek Sankararaman, Soumya Basu, Karthik Abinav Sankararaman
- Abstract要約: 我々は、需要側エージェントが供給側(武器)に対して未知かつ不均一な評価を有する二面マッチング市場について検討する。
エージェントのための分散ドミナントアーム削除 (UCB-D3) を用いた最初の分散アルゴリズムを設計する。
本稿では, 分散化直列独裁モデルに対する新たな後悔の低減と, UCB-D3 が最適であることを示す。
- 参考スコア(独自算出の注目度): 16.883188358641398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online learning in a two-sided matching market, with demand side agents
continuously competing to be matched with supply side (arms), abstracts the
complex interactions under partial information on matching platforms (e.g.
UpWork, TaskRabbit). We study the decentralized serial dictatorship setting, a
two-sided matching market where the demand side agents have unknown and
heterogeneous valuation over the supply side (arms), while the arms have known
uniform preference over the demand side (agents). We design the first
decentralized algorithm -- UCB with Decentralized Dominant-arm Deletion
(UCB-D3), for the agents, that does not require any knowledge of reward gaps or
time horizon. UCB-D3 works in phases, where in each phase, agents delete
\emph{dominated arms} -- the arms preferred by higher ranked agents, and play
only from the non-dominated arms according to the UCB. At the end of the phase,
agents broadcast in a decentralized fashion, their estimated preferred arms
through {\em pure exploitation}. We prove both, a new regret lower bound for
the decentralized serial dictatorship model, and that UCB-D3 is order optimal.
- Abstract(参考訳): オンライン学習は、需要側のエージェントがサプライサイド(arms)と継続的に競合し、マッチングプラットフォーム(例えばupwork、taskrabbit)上の部分的な情報の下で複雑なインタラクションを抽象化する、双方向マッチング市場でのオンライン学習である。
本研究では,需要側エージェントが供給側(アーム)に対して未知で不均質な評価をしており,需要側(エイジェント)に対して武器が均一な選好を把握している二面的市場である分散型連続独裁制について検討する。
最初の分散アルゴリズム -- ucb with decentralized dominant-arm deletion (ucb-d3) をエージェント向けに設計する。
UCB-D3 は段階的に機能し、各段階においてエージェントが上位のエージェントに好まれる腕である \emph{dominated arms} を削除する。
フェーズの終わりに、エージェントは分散した方法で放送され、その推定された腕は『em pure exploitation』を通じて好まれる。
本稿では, 分散化直列独裁モデルに対する新たな後悔の低減と, UCB-D3 が最適であることを示す。
関連論文リスト
- Competing Bandits in Decentralized Large Contextual Matching Markets [13.313881962771777]
我々は、需要側(プレイヤーまたはエージェント)が大きな供給側(腕)と競合する二面的マッチング市場における分散学習を研究する。
提案アルゴリズムは,腕の数によらず,インスタンス依存の対数的後悔を実現する。
論文 参考訳(メタデータ) (2024-11-18T18:08:05Z) - Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Decentralized Competing Bandits in Non-Stationary Matching Markets [46.13741000158631]
非定常(動的)環境下での分散化二面マッチング市場の枠組みを紹介する。
分散非定常競合帯域(textttDNCB)を用いた分散非同期学習アルゴリズムの提案と解析を行う。
我々はこの強調探索を特徴付け、texttDNCBのサブ線形(対数的)後悔を得る。
論文 参考訳(メタデータ) (2022-05-31T21:05:30Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Bandit Learning in Decentralized Matching Markets [82.39061186055775]
私たちは、一方の市場(プレーヤー)が他方の側(腕)の好みについて事前知識を持っていない両面マッチング市場を研究し、経験からその好みを学ぶ必要があります。
このモデルは、標準のマルチアームバンディットフレームワークを競合する分散型マルチプレイヤー設定に拡張します。
アームの選好が共有されるたびにアルゴリズムがインセンティブ互換であることが示されるが、選好が完全に一般的である場合には必ずしもそうではない。
論文 参考訳(メタデータ) (2020-12-14T08:58:07Z) - Bayesian Algorithms for Decentralized Stochastic Bandits [12.350564981588063]
我々は,ネットワーク上で接続された$K$アームと$N$エージェントを用いた分散協調型マルチエージェントマルチエージェントバンディット問題について検討した。
我々のモデルでは、各アームの報酬分布は全てのエージェントで同じであり、報酬はエージェントや時間経過とともに独立して引き出される。
目標は、ネットワーク全体の平均的な累積的後悔を最小限にすることである。
論文 参考訳(メタデータ) (2020-10-20T19:14:20Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Distributed Cooperative Decision Making in Multi-agent Multi-armed
Bandits [6.437761597996503]
複数のエージェントが同じバンディット(MAB)に直面している分散意思決定問題について検討する。
我々は,各アームの平均報酬を協調的に推定するための動的,コンセンサスに基づく分散推定アルゴリズムを設計する。
両アルゴリズムが中心核融合センターの性能に近いグループ性能を達成することを示す。
論文 参考訳(メタデータ) (2020-03-03T03:20:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。