論文の概要: Kernel Methods for Cooperative Multi-Agent Contextual Bandits
- arxiv url: http://arxiv.org/abs/2008.06220v1
- Date: Fri, 14 Aug 2020 07:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:01:19.022895
- Title: Kernel Methods for Cooperative Multi-Agent Contextual Bandits
- Title(参考訳): 協調型マルチエージェント帯域のカーネル法
- Authors: Abhimanyu Dubey and Alex Pentland
- Abstract要約: 協調的マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら、学習問題を協調的に解決するエージェントのグループを含む。
エージェントが得られる報酬は、関連するカーネル再生ヒルベルト空間(RKHS)におけるコンテキストのイメージの任意の線形関数である。
我々は, 年齢ごとの後悔に対して, ほぼ最適境界を与えるアルゴリズムであるtextscCoop- KernelUCBを提案する。
- 参考スコア(独自算出の注目度): 15.609414012418043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-agent decision making involves a group of agents
cooperatively solving learning problems while communicating over a network with
delays. In this paper, we consider the kernelised contextual bandit problem,
where the reward obtained by an agent is an arbitrary linear function of the
contexts' images in the related reproducing kernel Hilbert space (RKHS), and a
group of agents must cooperate to collectively solve their unique decision
problems. For this problem, we propose \textsc{Coop-KernelUCB}, an algorithm
that provides near-optimal bounds on the per-agent regret, and is both
computationally and communicatively efficient. For special cases of the
cooperative problem, we also provide variants of \textsc{Coop-KernelUCB} that
provides optimal per-agent regret. In addition, our algorithm generalizes
several existing results in the multi-agent bandit setting. Finally, on a
series of both synthetic and real-world multi-agent network benchmarks, we
demonstrate that our algorithm significantly outperforms existing benchmarks.
- Abstract(参考訳): 協調マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら学習問題を協調的に解決するエージェントのグループを含む。
本稿では,エージェントが得る報酬は関連する再現核ヒルベルト空間 (rkhs) における文脈のイメージの任意の線形関数であり,エージェント群はそれらの特異な決定問題を解くために協力しなければならない,カーネル化された文脈バンディット問題を考える。
そこで本研究では,一人あたりの後悔に最適に近い境界を与えるアルゴリズムである \textsc{coop-kernelucb} を提案する。
協調問題の特別の場合、我々はまた最適な一人称後悔を与える \textsc{coop-kernelucb} の変種も提供する。
さらに,本アルゴリズムは,マルチエージェント帯域設定において既存のいくつかの結果を一般化する。
最後に,人工的および実世界のマルチエージェントネットワークベンチマークにおいて,本アルゴリズムが既存のベンチマークを大幅に上回っていることを示す。
関連論文リスト
- Distributed Optimization via Kernelized Multi-armed Bandits [6.04275169308491]
分散最適化問題を異種報酬設定によるマルチエージェントカーネル化されたマルチアームバンディット問題としてモデル化する。
我々は,カーネルの一般的なクラスに対して,サブ線形なリフレッシュバウンドを実現するために,完全に分散化されたアルゴリズムであるマルチエージェントIGP-UCB(MA-IGP-UCB)を提案する。
また,Multi-agent Delayed IGP-UCB (MAD-IGP-UCB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T21:57:48Z) - Clustered Multi-Agent Linear Bandits [5.893124686141782]
クラスタ化多重エージェント線形バンドイットと呼ばれる,マルチエージェント線形バンドイット問題の特定の事例に対処する。
本稿では,エージェント間の効率的な協調を利用して最適化問題を高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-15T19:01:42Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Private and Byzantine-Proof Cooperative Decision-Making [15.609414012418043]
協調バンディット問題は、多腕バンディットと同時に相互作用するエージェントのグループを含むマルチエージェント決定問題である。
本稿では、エージェントがアクションシーケンスに関して通信をプライベートにしたい場合と、エージェントがビザンチンになり得る場合の2つの設定の下で、バンドイット問題を調査する。
我々は,(a)微分プライベートかつ(b)プライベートでありながら,最適な後悔を得る高信頼有界アルゴリズムを提供する。
我々の分散アルゴリズムはエージェント間の接続のネットワークに関する情報を必要とせず、大規模な動的システムにスケーラブルにします。
論文 参考訳(メタデータ) (2022-05-27T18:03:54Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Cooperative Multi-Agent Bandits with Heavy Tails [15.609414012418043]
エージェント群が共通のバンドイット問題と相互作用する,協調的マルチエージェント設定におけるヘビーテールバンドイット問題について検討する。
この設定における既存のバンディットのアルゴリズムは、平均化ベースの通信プロトコルから生じる信頼区間を利用する。
我々は,メッセージパッシングプロトコルを用いたロバストな推定を組み込んだ協調帯域の分散マルチエージェントアルゴリズムであるtextscMP-UCB を提案する。
論文 参考訳(メタデータ) (2020-08-14T08:34:32Z) - A Multi-Agent Primal-Dual Strategy for Composite Optimization over
Distributed Features [52.856801164425086]
目的関数を滑らかな局所関数と凸(おそらく非滑らか)結合関数の和とするマルチエージェント共有最適化問題について検討する。
論文 参考訳(メタデータ) (2020-06-15T19:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。