論文の概要: Collaborative Learning in General Graphs with Limited Memorization:
Learnability, Complexity and Reliability
- arxiv url: http://arxiv.org/abs/2201.12482v1
- Date: Sat, 29 Jan 2022 02:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 17:56:11.370057
- Title: Collaborative Learning in General Graphs with Limited Memorization:
Learnability, Complexity and Reliability
- Title(参考訳): 記憶に制限のある一般グラフにおける協調学習:学習可能性、複雑度、信頼性
- Authors: Feng Li, Xuyang Yuan, Lina Wang, Huan Yang, Dongxiao Yu, Weifeng Lv,
Xiuzhen Cheng
- Abstract要約: エージェントが任意に連結された一般グラフにおいて、K武装バンディット問題を考える。
目標は各エージェントに最高の腕を学ばせることだ。
本稿では,3段階の協調学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 30.432136485068572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider K-armed bandit problem in general graphs where agents are
arbitrarily connected and each of them has limited memorization and
communication bandwidth. The goal is to let each of the agents learn the best
arm. Although recent studies show the power of collaboration among the agents
in improving the efficacy of learning, it is assumed in these studies that the
communication graphs should be complete or well-structured, whereas such an
assumption is not always valid in practice. Furthermore, limited memorization
and communication bandwidth also restrict the collaborations of the agents,
since very few knowledge can be drawn by each agent from its experiences or the
ones shared by its peers in this case. Additionally, the agents may be
corrupted to share falsified experience, while the resource limit may
considerably restrict the reliability of the learning process. To address the
above issues, we propose a three-staged collaborative learning algorithm. In
each step, the agents share their experience with each other through
light-weight random walks in the general graphs, and then make decisions on
which arms to pull according to the randomly memorized suggestions. The agents
finally update their adoptions (i.e., preferences to the arms) based on the
reward feedback of the arm pulling. Our theoretical analysis shows that, by
exploiting the limited memorization and communication resources, all the agents
eventually learn the best arm with high probability. We also reveal in our
theoretical analysis the upper-bound on the number of corrupted agents our
algorithm can tolerate. The efficacy of our proposed three-staged collaborative
learning algorithm is finally verified by extensive experiments on both
synthetic and real datasets.
- Abstract(参考訳): エージェントが任意に接続され,それぞれが限られた記憶と通信帯域を有する一般グラフにおいて,K武装バンディット問題を考える。
目標は、各エージェントに最高の腕を学ばせることです。
近年の研究では,学習の有効性向上におけるエージェント間の協調の力を示しているが,これらの研究では,コミュニケーショングラフは完全あるいは適切に構造化されるべきであり,そのような仮定は実際には必ずしも有効ではないと考えられる。
さらに、記憶力や通信帯域の制限は、エージェントが経験や仲間が共有した知識から得られる知識が極めて少ないため、エージェントの協調性にも制限される。
さらに、エージェントは偽造された経験を共有するために腐敗し、リソース制限は学習プロセスの信頼性をかなり制限する可能性がある。
上記の課題に対処するために,三段階協調学習アルゴリズムを提案する。
各ステップでは、エージェントは一般的なグラフの軽量なランダムウォークを通じて互いに経験を共有し、ランダムに記憶された提案に従ってどのアームを引っ張るかを決定する。
エージェントは最終的に、アームプルの報奨フィードバックに基づいて、採用率(すなわち腕への選好)を更新する。
理論分析により,記憶力とコミュニケーション資源の制限を生かして,最終的にすべてのエージェントが最高のアームを高い確率で学習することが示された。
また,理論解析では,アルゴリズムが許容できる腐敗したエージェントの数が上限となることも明らかにしている。
提案する3段階協調学習アルゴリズムの有効性は,合成データと実データの両方について広範な実験により検証された。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - On-Demand Communication for Asynchronous Multi-Agent Bandits [43.3383282058292]
ODCはオンデマンド通信プロトコルであり、経験的なプル時間に基づいて各エージェントの通信を調整します。
ODCは、エージェントのプル時間が非常に均一であり、その通信の複雑さはエージェントの実証的なプル時間に依存する。
論文 参考訳(メタデータ) (2023-02-15T03:32:33Z) - Communication-Efficient Collaborative Best Arm Identification [6.861971769602314]
エージェントが協調して目的関数を学習するマルチエージェント学習モデルにおいて,バンドイット理論の基本的な問題であるトップ・m$腕識別について検討する。
私たちは、最大限のスピードアップを達成するための協調学習アルゴリズムの設計に興味を持っています。
論文 参考訳(メタデータ) (2022-08-18T19:02:29Z) - Secure Distributed Training at Scale [65.7538150168154]
ピアの存在下でのトレーニングには、ビザンティン寛容な特殊な分散トレーニングアルゴリズムが必要である。
本稿では,コミュニケーション効率を重視したセキュアな(ビザンチン耐性)分散トレーニングのための新しいプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-21T17:00:42Z) - A Visual Communication Map for Multi-Agent Deep Reinforcement Learning [7.003240657279981]
マルチエージェント学習は、隠蔽された通信媒体を割り当てる上で大きな課題となる。
最近の研究は一般的に、エージェント間の通信を可能にするために、特殊なニューラルネットワークと強化学習を組み合わせる。
本稿では,多数のエージェントを扱うだけでなく,異種機能エージェント間の協調を可能にする,よりスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T02:38:21Z) - R-MADDPG for Partially Observable Environments and Limited Communication [42.771013165298186]
本稿では, 部分観測可能な集合点と限られた通信条件下でのマルチエージェント協調処理のための, R-MADDPG (Deep Recurrent Multiagent-critic framework) を提案する。
得られたフレームワークは、欠落した観察の共有、リソース制限の処理、エージェント間の異なる通信パターンの開発のための時間依存性を学習する。
論文 参考訳(メタデータ) (2020-02-16T21:25:44Z) - Learning Multi-Agent Coordination through Connectivity-driven
Communication [7.462336024223669]
人工マルチエージェントシステムでは、エージェントのコミュニケーションスキルに基づいて協調的なポリシーを学習することができる。
我々は、深い強化学習アプローチであるコネクティビティ駆動通信(CDC)を提案する。
CDCは効果的な協調政策を学習でき、協調ナビゲーションタスクにおいて競合する学習アルゴリズムをオーバーパフォーマンスさせることができる。
論文 参考訳(メタデータ) (2020-02-12T20:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。