論文の概要: Collaborative Learning in General Graphs with Limited Memorization:
Complexity, Learnability, and Reliability
- arxiv url: http://arxiv.org/abs/2201.12482v2
- Date: Wed, 3 May 2023 12:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 19:20:55.759604
- Title: Collaborative Learning in General Graphs with Limited Memorization:
Complexity, Learnability, and Reliability
- Title(参考訳): 記憶に制限のある一般グラフにおける協調学習:複雑さ、学習可能性、信頼性
- Authors: Feng Li, Xuyang Yuan, Lina Wang, Huan Yang, Dongxiao Yu, Weifeng Lv,
Xiuzhen Cheng
- Abstract要約: エージェントが任意に連結された一般グラフにおいて、K武装のバンディット問題を考える。
目標は、各エージェントが最終的に最高の腕を学習できるようにすることです。
本稿では,3段階の協調学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 30.432136485068572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a K-armed bandit problem in general graphs where agents are
arbitrarily connected and each of them has limited memorizing capabilities and
communication bandwidth. The goal is to let each of the agents eventually learn
the best arm. It is assumed in these studies that the communication graph
should be complete or well-structured, whereas such an assumption is not always
valid in practice. Furthermore, limited memorization and communication
bandwidth also restrict the collaborations of the agents, since the agents
memorize and communicate very few experiences. Additionally, an agent may be
corrupted to share falsified experiences to its peers, while the resource limit
in terms of memorization and communication may considerably restrict the
reliability of the learning process. To address the above issues, we propose a
three-staged collaborative learning algorithm. In each step, the agents share
their latest experiences with each other through light-weight random walks in a
general communication graph, and then make decisions on which arms to pull
according to the recommendations received from their peers. The agents finally
update their adoptions (i.e., preferences to the arms) based on the reward
obtained by pulling the arms. Our theoretical analysis shows that, when there
are a sufficient number of agents participating in the collaborative learning
process, all the agents eventually learn the best arm with high probability,
even with limited memorizing capabilities and light-weight communications. We
also reveal in our theoretical analysis the upper bound on the number of
corrupted agents our algorithm can tolerate. The efficacy of our proposed
three-staged collaborative learning algorithm is finally verified by extensive
experiments on both synthetic and real datasets.
- Abstract(参考訳): エージェントが任意に接続され、それぞれに記憶能力と通信帯域が制限された一般グラフにおけるk-armed bandit問題を考える。
目標は、各エージェントが最終的に最高の腕を学習できるようにすることです。
これらの研究では、コミュニケーショングラフは完全あるいは十分に構造化されるべきであるが、そのような仮定は実際には必ずしも有効ではない。
さらに、記憶力や通信帯域が限られており、エージェントが記憶し通信する経験が極めて少ないため、エージェントのコラボレーションも制限されている。
さらに、エージェントは不正な経験を仲間に共有するために腐敗することもあるが、記憶とコミュニケーションのリソース制限は学習プロセスの信頼性を著しく制限する可能性がある。
上記の課題に対処するために,三段階協調学習アルゴリズムを提案する。
それぞれのステップで、エージェントは、一般的なコミュニケーショングラフ内の軽量なランダムウォークを通じて、最新の経験を共有し、仲間から受け取った推奨に従って、どのアームを引っ張るかを決定する。
エージェントは最終的に、腕を引くことで得られる報酬に基づいて、採用(腕への好み)を更新する。
理論的分析により,協調学習プロセスに十分な数のエージェントが参加すると,記憶力や軽量なコミュニケーションが制限された場合でも,すべてのエージェントが最終的に最高のアームを高い確率で学習することが示された。
また,理論解析では,アルゴリズムが許容できる腐敗したエージェントの数の上限を明らかにした。
提案する3段階協調学習アルゴリズムの有効性は,合成データと実データの両方について広範な実験により検証された。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - On-Demand Communication for Asynchronous Multi-Agent Bandits [43.3383282058292]
ODCはオンデマンド通信プロトコルであり、経験的なプル時間に基づいて各エージェントの通信を調整します。
ODCは、エージェントのプル時間が非常に均一であり、その通信の複雑さはエージェントの実証的なプル時間に依存する。
論文 参考訳(メタデータ) (2023-02-15T03:32:33Z) - Communication-Efficient Collaborative Best Arm Identification [6.861971769602314]
エージェントが協調して目的関数を学習するマルチエージェント学習モデルにおいて,バンドイット理論の基本的な問題であるトップ・m$腕識別について検討する。
私たちは、最大限のスピードアップを達成するための協調学習アルゴリズムの設計に興味を持っています。
論文 参考訳(メタデータ) (2022-08-18T19:02:29Z) - Secure Distributed Training at Scale [65.7538150168154]
ピアの存在下でのトレーニングには、ビザンティン寛容な特殊な分散トレーニングアルゴリズムが必要である。
本稿では,コミュニケーション効率を重視したセキュアな(ビザンチン耐性)分散トレーニングのための新しいプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-21T17:00:42Z) - A Visual Communication Map for Multi-Agent Deep Reinforcement Learning [7.003240657279981]
マルチエージェント学習は、隠蔽された通信媒体を割り当てる上で大きな課題となる。
最近の研究は一般的に、エージェント間の通信を可能にするために、特殊なニューラルネットワークと強化学習を組み合わせる。
本稿では,多数のエージェントを扱うだけでなく,異種機能エージェント間の協調を可能にする,よりスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T02:38:21Z) - R-MADDPG for Partially Observable Environments and Limited Communication [42.771013165298186]
本稿では, 部分観測可能な集合点と限られた通信条件下でのマルチエージェント協調処理のための, R-MADDPG (Deep Recurrent Multiagent-critic framework) を提案する。
得られたフレームワークは、欠落した観察の共有、リソース制限の処理、エージェント間の異なる通信パターンの開発のための時間依存性を学習する。
論文 参考訳(メタデータ) (2020-02-16T21:25:44Z) - Learning Multi-Agent Coordination through Connectivity-driven
Communication [7.462336024223669]
人工マルチエージェントシステムでは、エージェントのコミュニケーションスキルに基づいて協調的なポリシーを学習することができる。
我々は、深い強化学習アプローチであるコネクティビティ駆動通信(CDC)を提案する。
CDCは効果的な協調政策を学習でき、協調ナビゲーションタスクにおいて競合する学習アルゴリズムをオーバーパフォーマンスさせることができる。
論文 参考訳(メタデータ) (2020-02-12T20:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。