論文の概要: Stochastic Network Utility Maximization with Unknown Utilities:
Multi-Armed Bandits Approach
- arxiv url: http://arxiv.org/abs/2006.09997v1
- Date: Wed, 17 Jun 2020 16:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 20:26:54.091587
- Title: Stochastic Network Utility Maximization with Unknown Utilities:
Multi-Armed Bandits Approach
- Title(参考訳): 未知のユーティリティによる確率的ネットワーク利用率の最大化:マルチアーマッドバンドアプローチ
- Authors: Arun Verma and Manjesh K. Hanawal
- Abstract要約: エージェントのユーティリティが不明な新しいネットワークユーティリティ最大化(NUM)問題について検討する。
各エージェントの効用は、ネットワークオペレータ/コントローラから受け取るリソースの量に依存する。
本稿では,マルチプレイ・マルチアーマッド・バンドとコンビニアル・セミ・バンドのアイデアを用いた新しい設定法を提案する。
- 参考スコア(独自算出の注目度): 5.1398743023989555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study a novel Stochastic Network Utility Maximization (NUM)
problem where the utilities of agents are unknown. The utility of each agent
depends on the amount of resource it receives from a network
operator/controller. The operator desires to do a resource allocation that
maximizes the expected total utility of the network. We consider threshold type
utility functions where each agent gets non-zero utility if the amount of
resource it receives is higher than a certain threshold. Otherwise, its utility
is zero (hard real-time). We pose this NUM setup with unknown utilities as a
regret minimization problem. Our goal is to identify a policy that performs as
`good' as an oracle policy that knows the utilities of agents. We model this
problem setting as a bandit setting where feedback obtained in each round
depends on the resource allocated to the agents. We propose algorithms for this
novel setting using ideas from Multiple-Play Multi-Armed Bandits and
Combinatorial Semi-Bandits. We show that the proposed algorithm is optimal when
all agents have the same utility. We validate the performance guarantees of our
proposed algorithms through numerical experiments.
- Abstract(参考訳): 本稿では,エージェントの効用が不明な新しい確率的ネットワークユーティリティ最大化(NUM)問題について検討する。
各エージェントのユーティリティは、ネットワークオペレータ/コントローラから受信したリソース量に依存する。
オペレータは、ネットワークの期待される全効用を最大化するリソース割り当てを望んでいる。
我々は、受信するリソースの量が一定のしきい値以上の場合、各エージェントが非ゼロユーティリティとなるしきい値型ユーティリティ関数を検討する。
そうでない場合、そのユーティリティはゼロ(ハード・リアルタイム)である。
残念な最小化問題として、未知のユーティリティを備えたこのNUMセットアップを仮定する。
我々のゴールは、エージェントのユーティリティを知っている託宣方針として「良い」として機能する政策を特定することです。
この問題を,各ラウンドで得られたフィードバックがエージェントに割り当てられたリソースに依存する帯域設定としてモデル化する。
マルチプレイ・マルチアーマッド・バンドとコンビニアル・セミ・バンドのアイデアを用いた新しい設定法を提案する。
提案アルゴリズムは,全てのエージェントが同一の効用を有する場合に最適であることを示す。
提案アルゴリズムの性能保証を数値実験により検証する。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Cooperative Thresholded Lasso for Sparse Linear Bandit [6.52540785559241]
本稿では,マルチエージェント・スパース文脈線形帯域問題に対処する新しい手法を提案する。
疎線形帯域における行単位の分散データに対処する最初のアルゴリズムである。
後悔を最小限に抑えるために効率的な特徴抽出が重要となる高次元マルチエージェント問題に適用可能である。
論文 参考訳(メタデータ) (2023-05-30T16:05:44Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Resource Sharing Through Multi-Round Matchings [27.98321373077565]
1ラウンド当たりのマッチングの集合は、もし存在するなら、効率的に見つけることができることを示す。
提案アルゴリズムを合成ネットワーク上で実験的に評価し,2つの実環境 – 共有オフィススペースとマッチングコース – に適用した。
論文 参考訳(メタデータ) (2022-11-30T17:46:43Z) - Collaborative Multi-agent Stochastic Linear Bandits [28.268809091816287]
我々は,ネットワークを構成するN$エージェントが局所的に通信し,全体的な後悔を最小限に抑える,協調的マルチエージェント線形帯域設定について検討する。
すべてのエージェントは、プレイされたアクションの対応する報酬を観察し、加速されたコンセンサス手順を使用して、すべてのエージェントが取得した報酬の平均の見積もりを計算する。
論文 参考訳(メタデータ) (2022-05-12T19:46:35Z) - A Multi-Arm Bandit Approach To Subset Selection Under Constraints [14.543433698096667]
中央プランナーがエージェントのサブセットを選択する必要がある問題の種類を,それぞれ異なる品質とコストで検討する。
エージェントの品質が分かると、我々は問題を整数線形プログラム(ILP)として定式化する。
ILPの正確な解を提供する決定論的アルゴリズム(dpss)を提案する。
論文 参考訳(メタデータ) (2021-02-09T13:48:57Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Improved Sleeping Bandits with Stochastic Actions Sets and Adversarial
Rewards [59.559028338399855]
我々は,行動セットと敵意の報酬を伴って睡眠中の盗賊の問題を考察する。
本稿では,EXP3にインスパイアされた新しい計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-14T00:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。