論文の概要: Regret-Minimization Algorithms for Multi-Agent Cooperative Learning
Systems
- arxiv url: http://arxiv.org/abs/2310.19468v1
- Date: Mon, 30 Oct 2023 11:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:36:00.888587
- Title: Regret-Minimization Algorithms for Multi-Agent Cooperative Learning
Systems
- Title(参考訳): 多エージェント協調学習システムのための後悔最小化アルゴリズム
- Authors: Jialin Yi
- Abstract要約: MACL(Multi-Agent Cooperative Learning)は、人工知能(AI)システムであり、複数の学習エージェントが協力して共通のタスクを完了させる。
近年、様々な領域におけるMACLシステムの実証的な成功は、逐次意思決定問題に対するMACLシステムの設計と解析に活発な研究を引き起こしている。
- 参考スコア(独自算出の注目度): 1.7767466724342067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A Multi-Agent Cooperative Learning (MACL) system is an artificial
intelligence (AI) system where multiple learning agents work together to
complete a common task. Recent empirical success of MACL systems in various
domains (e.g. traffic control, cloud computing, robotics) has sparked active
research into the design and analysis of MACL systems for sequential decision
making problems. One important metric of the learning algorithm for decision
making problems is its regret, i.e. the difference between the highest
achievable reward and the actual reward that the algorithm gains. The design
and development of a MACL system with low-regret learning algorithms can create
huge economic values. In this thesis, I analyze MACL systems for different
sequential decision making problems. Concretely, the Chapter 3 and 4
investigate the cooperative multi-agent multi-armed bandit problems, with
full-information or bandit feedback, in which multiple learning agents can
exchange their information through a communication network and the agents can
only observe the rewards of the actions they choose. Chapter 5 considers the
communication-regret trade-off for online convex optimization in the
distributed setting. Chapter 6 discusses how to form high-productive teams for
agents based on their unknown but fixed types using adaptive incremental
matchings. For the above problems, I present the regret lower bounds for
feasible learning algorithms and provide the efficient algorithms to achieve
this bound. The regret bounds I present in Chapter 3, 4 and 5 quantify how the
regret depends on the connectivity of the communication network and the
communication delay, thus giving useful guidance on design of the communication
protocol in MACL systems
- Abstract(参考訳): MACL(Multi-Agent Cooperative Learning)は、人工知能(AI)システムであり、複数の学習エージェントが協力して共通のタスクを完了させる。
様々な領域(例えば、交通制御、クラウドコンピューティング、ロボティクス)におけるMACLシステムの最近の実証的な成功は、逐次決定問題のためのMACLシステムの設計と分析に活発な研究を巻き起こした。
意思決定問題に対する学習アルゴリズムの重要な指標の1つは、その後悔、すなわち、最も達成可能な報酬とアルゴリズムが得る実際の報酬との差である。
低レベルの学習アルゴリズムを用いたMACLシステムの設計と開発は、膨大な経済価値を生み出すことができる。
本論文では, 逐次決定問題に対するMACLシステムの解析を行う。
具体的には、第3章及び第4章は、複数の学習エージェントが通信ネットワークを介して情報を交換でき、エージェントが選択した行動の報酬だけを観察できる、全情報またはバンディットフィードバックを用いて、協調型マルチエージェントマルチエージェントバンディット問題を調査する。
第5章では、分散環境でのオンライン凸最適化のコミュニケーション・レグレットトレードオフを考察する。
第6章では、適応的なインクリメンタルマッチングを使用して、未知だが固定型のエージェントに対して、ハイプロダクティブなチームを形成する方法について論じている。
以上の問題に対して,実現可能な学習アルゴリズムに対する後悔の少ない境界を示し,この境界を達成するための効率的なアルゴリズムを提供する。
第3章、第4章、第5章の後悔境界は、通信網の接続性や通信遅延にどのように影響するかを定量化し、MACLシステムにおける通信プロトコルの設計に関する有用なガイダンスを提供する。
関連論文リスト
- Multi-Agent Bandit Learning through Heterogeneous Action Erasure Channels [21.860440468189044]
Multi-Armed Bandit (MAB) システムはマルチエージェント分散環境におけるアプリケーションの増加を目撃している。
このような設定では、アクションを実行するエージェントと、意思決定を行う一次学習者とのコミュニケーションは、学習プロセスを妨げる可能性がある。
本研究では,学習者が異種行動消去チャネルをまたいで分散エージェントと並列に対話できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-21T19:21:19Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - A Tutorial on Ultra-Reliable and Low-Latency Communications in 6G:
Integrating Domain Knowledge into Deep Learning [115.75967665222635]
超信頼性・低レイテンシ通信(URLLC)は、様々な新しいミッションクリティカルなアプリケーションの開発の中心となる。
ディープラーニングアルゴリズムは、将来の6GネットワークでURLLCを実現する技術を開発するための有望な方法と考えられている。
このチュートリアルでは、URLLCのさまざまなディープラーニングアルゴリズムにドメイン知識を組み込む方法について説明する。
論文 参考訳(メタデータ) (2020-09-13T14:53:01Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z) - Learning NP-Hard Multi-Agent Assignment Planning using GNN: Inference on
a Random Graph and Provable Auction-Fitted Q-learning [24.956507498394497]
本稿では,学習に基づくアルゴリズムを用いて,時間依存報酬を用いたマルチエージェント・マルチタスクNPハードプランニング問題をほぼ最適に解決する可能性について検討する。
論文 参考訳(メタデータ) (2019-05-29T04:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。