論文の概要: When to Call Your Neighbor? Strategic Communication in Cooperative
Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2110.04396v1
- Date: Fri, 8 Oct 2021 22:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 06:57:50.456746
- Title: When to Call Your Neighbor? Strategic Communication in Cooperative
Stochastic Bandits
- Title(参考訳): いつ隣人に電話する?
協調確率帯域における戦略的コミュニケーション
- Authors: Udari Madhushani and Naomi Leonard
- Abstract要約: 集団的連続的な意思決定の本質的な特徴を捉える枠組みである協調的盗賊では、エージェントは集団的後悔を最小限に抑え、パフォーマンスを向上させることができる。
既存の協調バンディットアルゴリズムは、エージェントがテキストのタイムステップ、すなわち完全なコミュニケーションで隣人と情報を共有するとき、最適なパフォーマンスを得る。
提案手法は,O(log T)$メッセージ数のみを通信しながら,グループ間の通信性能を全通信と同等に向上する,コスト効率の高い新しい通信プロトコルである textitComEx を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cooperative bandits, a framework that captures essential features of
collective sequential decision making, agents can minimize group regret, and
thereby improve performance, by leveraging shared information. However, sharing
information can be costly, which motivates developing policies that minimize
group regret while also reducing the number of messages communicated by agents.
Existing cooperative bandit algorithms obtain optimal performance when agents
share information with their neighbors at \textit{every time step}, i.e., full
communication. This requires $\Theta(T)$ number of messages, where $T$ is the
time horizon of the decision making process. We propose \textit{ComEx}, a novel
cost-effective communication protocol in which the group achieves the same
order of performance as full communication while communicating only $O(\log T)$
number of messages. Our key step is developing a method to identify and only
communicate the information crucial to achieving optimal performance. Further
we propose novel algorithms for several benchmark cooperative bandit frameworks
and show that our algorithms obtain \textit{state-of-the-art} performance while
consistently incurring a significantly smaller communication cost than existing
algorithms.
- Abstract(参考訳): 集団的連続的な意思決定の本質的特徴を捉える枠組みである協調帯域では、エージェントはグループ後悔を最小限に抑え、共有情報を活用することでパフォーマンスを向上させることができる。
しかし、情報の共有にはコストがかかるため、グループ後悔を最小限に抑えつつ、エージェントが伝達するメッセージの数を減らしたポリシーを開発する動機となる。
既存の協調バンディットアルゴリズムは、エージェントが隣人と情報を共有する際の最適な性能を得る。
これは$\theta(t)$のメッセージを必要とし、そこで$t$は意思決定プロセスの時間軸である。
我々は,O(\log T)$のメッセージ数のみを通信しながら,グループによる完全通信と同等のパフォーマンスを達成できる,コスト効率の高い通信プロトコルである‘textit{ComEx} を提案する。
我々の重要なステップは、最適なパフォーマンスを達成するために不可欠な情報を識別し、伝達する手法を開発することです。
さらに,いくつかのベンチマーク協調バンディットフレームワークのための新しいアルゴリズムを提案し,提案手法が既存のアルゴリズムよりも大幅に少ない通信コストを伴いながら, \textit{state-of-the-art} 性能を得ることを示した。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Cooperative Multi-agent Bandits: Distributed Algorithms with Optimal
Individual Regret and Constant Communication Costs [46.068883750876886]
本稿では,単純だが効果的な通信方針を提示し,それを協調的盗賊学習アルゴリズムに統合する。
我々のアルゴリズムは、最適な個人の後悔と絶え間ないコミュニケーションコストという、両方のパラダイムの長所を達成している。
論文 参考訳(メタデータ) (2023-08-08T15:02:50Z) - RGMComm: Return Gap Minimization via Discrete Communications in
Multi-Agent Reinforcement Learning [33.86277578441437]
マルコフ決定過程における協調的マルチエージェント強化学習課題の解決には,コミュニケーションが不可欠である。
本稿では、離散メッセージ生成関数の驚くほど単純な設計であるReturn-Gap-Minimization Communication (RGMComm)アルゴリズムを提案する。
評価の結果、RGMCommは最先端のマルチエージェント通信ベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-08-07T07:26:55Z) - Cooperative Multi-Agent Reinforcement Learning: Asynchronous
Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。
本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。
我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文 参考訳(メタデータ) (2023-05-10T20:29:29Z) - Towards True Lossless Sparse Communication in Multi-Agent Systems [1.911678487931003]
コミュニケーションは、エージェントが目標を達成するために協力することを可能にする。
スパース個別化コミュニケーションの学習における最近の研究は、訓練中に高いばらつきに悩まされている。
情報ボトルネックを表現学習問題として、空間性を再設定するために使用します。
論文 参考訳(メタデータ) (2022-11-30T20:43:34Z) - A Simple and Provably Efficient Algorithm for Asynchronous Federated
Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。
すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。
texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文 参考訳(メタデータ) (2022-07-07T06:16:19Z) - Distributed Contextual Linear Bandits with Minimax Optimal Communication
Cost [48.288452411283444]
そこでは,$N$エージェントが協調して,$d$次元の特徴を持つ線形帯域最適化問題を解く。
本稿では,LinUCBアルゴリズムの分散バッチ除去版であるDisBE-LUCBを提案する。
我々は、DisBE-LUCBの通信コストがわずか$tildemathcalO(dN)$であり、その後悔は少なくとも$tildemathcalO(dN)$であることを示す。
論文 参考訳(メタデータ) (2022-05-26T05:56:23Z) - Multi-agent Communication with Graph Information Bottleneck under
Limited Bandwidth (a position paper) [92.11330289225981]
多くの実世界のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約がある。
通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。
本稿では,通信グラフ内の構造情報とノード情報を効果的に圧縮し,帯域幅に制約のある設定に対処する,新しいマルチエージェント通信モジュールCommGIBを提案する。
論文 参考訳(メタデータ) (2021-12-20T07:53:44Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。