論文の概要: Multi-Agent Best Arm Identification in Stochastic Linear Bandits
- arxiv url: http://arxiv.org/abs/2411.13690v1
- Date: Wed, 20 Nov 2024 20:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:38.500502
- Title: Multi-Agent Best Arm Identification in Stochastic Linear Bandits
- Title(参考訳): 確率線形帯域におけるマルチエージェントベストアーム識別
- Authors: Sanjana Agrawal, Saúl A. Blanco,
- Abstract要約: 固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。
学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。
我々は、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
- 参考スコア(独自算出の注目度): 0.7673339435080443
- License:
- Abstract: We study the problem of collaborative best-arm identification in stochastic linear bandits under a fixed-budget scenario. In our learning model, we consider multiple agents connected through a star network or a generic network, interacting with a linear bandit instance in parallel. The objective of the agents is to collaboratively learn the best arm of the given bandit instance with the help of a central server while minimizing the probability of error in best arm estimation. For this purpose, we devise the algorithms MaLinBAI-Star and MaLinBAI-Gen for star networks and generic networks respectively. Both algorithms employ an Upper-Confidence-Bound approach where agents share their knowledge through the central server during each communication round. We demonstrate, both theoretically and empirically, that our algorithms enjoy exponentially decaying probability of error in the allocated time budget. Furthermore, experimental results based on synthetic and real-world data validate the effectiveness of our algorithms over the existing multi-agent algorithms.
- Abstract(参考訳): 固定予算シナリオ下での確率線形包帯における協調的ベストアーム識別の問題について検討する。
学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。
エージェントの目的は、ベストアーム推定におけるエラーの可能性を最小化しつつ、中央サーバの助けを借りて、与えられたバンディットインスタンスのベストアームを協調的に学習することである。
この目的のために、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
どちらのアルゴリズムも上信頼境界アプローチを採用しており、各通信ラウンドの間、エージェントは中央サーバーを通して知識を共有する。
我々は、理論的にも経験的にも、割り当てられた時間予算においてアルゴリズムが指数関数的に誤差の確率を楽しむことを実証する。
さらに、実世界の合成データに基づく実験結果により、既存のマルチエージェントアルゴリズムよりもアルゴリズムの有効性が検証された。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。
信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T06:04:00Z) - Clustered Multi-Agent Linear Bandits [5.893124686141782]
クラスタ化多重エージェント線形バンドイットと呼ばれる,マルチエージェント線形バンドイット問題の特定の事例に対処する。
本稿では,エージェント間の効率的な協調を利用して最適化問題を高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-15T19:01:42Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Communication-Efficient Collaborative Best Arm Identification [6.861971769602314]
エージェントが協調して目的関数を学習するマルチエージェント学習モデルにおいて,バンドイット理論の基本的な問題であるトップ・m$腕識別について検討する。
私たちは、最大限のスピードアップを達成するための協調学習アルゴリズムの設計に興味を持っています。
論文 参考訳(メタデータ) (2022-08-18T19:02:29Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Detection of Insider Attacks in Distributed Projected Subgradient
Algorithms [11.096339082411882]
汎用ニューラルネットワークは悪質なエージェントの検出とローカライズに特に適していることを示す。
本稿では,連合学習における最先端のアプローチ,すなわち協調型ピアツーピア機械学習プロトコルを採用することを提案する。
シミュレーションでは,AIに基づく手法の有効性と有効性を検証するために,最小二乗問題を考える。
論文 参考訳(メタデータ) (2021-01-18T08:01:06Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。