論文の概要: Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations
- arxiv url: http://arxiv.org/abs/2010.10878v1
- Date: Wed, 21 Oct 2020 10:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:18:11.488134
- Title: Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations
- Title(参考訳): 連立制約付きマルチエージェントシステムの協調オンライン学習と摂動ユーティリティ観測
- Authors: Ezra Tampubolon and Holger Boche
- Abstract要約: 本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
- 参考スコア(独自算出の注目度): 91.02019381927236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Competitive non-cooperative online decision-making agents whose actions
increase congestion of scarce resources constitute a model for widespread
modern large-scale applications. To ensure sustainable resource behavior, we
introduce a novel method to steer the agents toward a stable population state,
fulfilling the given coupled resource constraints. The proposed method is a
decentralized resource pricing method based on the resource loads resulting
from the augmentation of the game's Lagrangian. Assuming that the online
learning agents have only noisy first-order utility feedback, we show that for
a polynomially decaying agents' step size/learning rate, the population's
dynamic will almost surely converge to generalized Nash equilibrium. A
particular consequence of the latter is the fulfillment of resource constraints
in the asymptotic limit. Moreover, we investigate the finite-time quality of
the proposed algorithm by giving a nonasymptotic time decaying bound for the
expected amount of resource constraint violation.
- Abstract(参考訳): 競争力のある非協力的オンライン意思決定エージェントは、不足資源の混雑を増大させ、近代的な大規模応用のモデルとなっている。
持続可能な資源の振舞いを確保するため,資源制約を満たすため,エージェントを安定した人口状態へ誘導する新しい手法を提案する。
提案手法は,ゲームのラグランジアンの強化による資源負荷に基づく分散資源価格設定手法である。
オンライン学習エージェントがノイズの多い1次効用フィードバックしか持たないと仮定すると、多項式減衰エージェントのステップサイズ/学習率に対して、人口動態はほぼ確実に一般化されたナッシュ均衡に収束する。
後者の特別な結果は、漸近極限における資源制約を満たすことである。
さらに,提案アルゴリズムの有限時間品質を,資源制約違反の予測量に対して非漸近的時間減衰を与えることにより検討する。
関連論文リスト
- COIN: Chance-Constrained Imitation Learning for Uncertainty-aware
Adaptive Resource Oversubscription Policy [37.034543365623286]
不確実性が存在する場合に安全で堅牢な意思決定ポリシーを学ぶという課題に対処する。
従来の教師付き予測や予測モデルは適応ポリシーの学習には効果がない。
オンライン最適化や強化学習は、実際のシステムにデプロイすることが難しい。
論文 参考訳(メタデータ) (2024-01-13T11:43:25Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Resource Allocation to Agents with Restrictions: Maximizing Likelihood
with Minimum Compromise [28.2469613376685]
原理は、各エージェントが何らかの確率でリソースにマッチするように、ランダムに最大マッチングを選択することを示す。
エージェントは、制限を一定の範囲内で変更することで、マッチする可能性を改善したいと考えています。
本研究では,合成データセットと2つの新しい実世界のデータセットについて実験的に評価した。
論文 参考訳(メタデータ) (2022-09-12T11:58:19Z) - Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method [4.061135251278187]
資源制約を考慮したオンライン文脈決定問題について検討する。
本稿では,「スマート予測-then-(SPO)」法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
提案手法の全体的な収束速度はオンラインミラー降下の$mathcalO(T-1/2)$収束に依存することを示す。
論文 参考訳(メタデータ) (2022-06-15T06:16:13Z) - Online Allocation with Two-sided Resource Constraints [44.5635910908944]
我々は,要求が順次到着する,リソース制約の低いオンラインアロケーション問題を考える。
提案手法では, リクエスト全体を知るオフライン問題に対して, 1-O (fracepsilonalpha-epsilon)$-competitive ratioを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-28T02:21:06Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。