論文の概要: Multi-Agent Best Arm Identification in Stochastic Linear Bandits
- arxiv url: http://arxiv.org/abs/2411.13690v2
- Date: Sat, 24 May 2025 18:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:52.959042
- Title: Multi-Agent Best Arm Identification in Stochastic Linear Bandits
- Title(参考訳): 確率線形帯域におけるマルチエージェントベストアーム識別
- Authors: Sanjana Agrawal, Saúl A. Blanco,
- Abstract要約: 固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。
本稿では,任意の構造を持つスターネットワークとネットワークに対して,MaLinBAI-StarとMaLinBAI-Genの2つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.7673339435080443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the problem of collaborative best-arm identification in stochastic linear bandits under a fixed-budget scenario. In our learning model, we first consider multiple agents connected through a star network, interacting with a linear bandit instance in parallel. We then extend our analysis to arbitrary network topologies. The objective of the agents is to collaboratively identify the best arm of the given bandit instance with the help of a central server while minimizing the probability of error in best arm estimation. To this end, we propose two algorithms, MaLinBAI-Star and MaLinBAI-Gen for star networks and networks with arbitrary structure, respectively. Both algorithms utilize the technique of G-optimal design along with the successive elimination based strategy where agents share their knowledge through a central server at each communication round. We demonstrate, both theoretically and empirically, that our algorithms achieve exponentially decaying probability of error in the allocated time budget. Furthermore, experimental results on both synthetic and real-world data validate the effectiveness of our algorithms over the state-of-the art existing multi-agent algorithms.
- Abstract(参考訳): 固定予算シナリオ下での確率線形包帯における協調的ベストアーム識別の問題について検討する。
学習モデルでは、まずスターネットワークを介して接続された複数のエージェントについて検討し、線形バンディットインスタンスと並列に相互作用する。
そして、分析を任意のネットワークトポロジに拡張します。
エージェントの目的は、ベストアーム推定におけるエラーの可能性を最小化しつつ、中央サーバの助けを借りて、与えられたバンディットインスタンスのベストアームを協調的に識別することである。
そこで本研究では,スターネットワークと任意の構造を持つネットワークに対して,MaLinBAI-StarとMaLinBAI-Genの2つのアルゴリズムを提案する。
両アルゴリズムはG-最適設計技術と、エージェントが各通信ラウンドで中央サーバを通して知識を共有するという連続的な除去ベースの戦略を利用する。
我々は、理論的にも経験的にも、割り当てられた時間予算において、アルゴリズムが指数関数的に減衰するエラーの確率を達成することを実証する。
さらに, 実世界の合成データと実世界のデータを用いて, 最先端のマルチエージェントアルゴリズムに対するアルゴリズムの有効性を検証した。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。
信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T06:04:00Z) - Clustered Multi-Agent Linear Bandits [5.893124686141782]
クラスタ化多重エージェント線形バンドイットと呼ばれる,マルチエージェント線形バンドイット問題の特定の事例に対処する。
本稿では,エージェント間の効率的な協調を利用して最適化問題を高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-15T19:01:42Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Communication-Efficient Collaborative Best Arm Identification [6.861971769602314]
エージェントが協調して目的関数を学習するマルチエージェント学習モデルにおいて,バンドイット理論の基本的な問題であるトップ・m$腕識別について検討する。
私たちは、最大限のスピードアップを達成するための協調学習アルゴリズムの設計に興味を持っています。
論文 参考訳(メタデータ) (2022-08-18T19:02:29Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Detection of Insider Attacks in Distributed Projected Subgradient
Algorithms [11.096339082411882]
汎用ニューラルネットワークは悪質なエージェントの検出とローカライズに特に適していることを示す。
本稿では,連合学習における最先端のアプローチ,すなわち協調型ピアツーピア機械学習プロトコルを採用することを提案する。
シミュレーションでは,AIに基づく手法の有効性と有効性を検証するために,最小二乗問題を考える。
論文 参考訳(メタデータ) (2021-01-18T08:01:06Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。