論文の概要: Pure Exploration in Asynchronous Federated Bandits
- arxiv url: http://arxiv.org/abs/2310.11015v2
- Date: Mon, 30 Sep 2024 00:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:26.599725
- Title: Pure Exploration in Asynchronous Federated Bandits
- Title(参考訳): 非同期フェデレーションバンドにおける純粋探索
- Authors: Zichen Wang, Chuanhao Li, Chenyu Song, Lianghui Wang, Quanquan Gu, Huazheng Wang,
- Abstract要約: マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。
信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 57.02106627533004
- License:
- Abstract: We study the federated pure exploration problem of multi-armed bandits and linear bandits, where $M$ agents cooperatively identify the best arm via communicating with the central server. To enhance the robustness against latency and unavailability of agents that are common in practice, we propose the first federated asynchronous multi-armed bandit and linear bandit algorithms for pure exploration with fixed confidence. Our theoretical analysis shows the proposed algorithms achieve near-optimal sample complexities and efficient communication costs in a fully asynchronous environment. Moreover, experimental results based on synthetic and real-world data empirically elucidate the effectiveness and communication cost-efficiency of the proposed algorithms.
- Abstract(参考訳): マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。
エージェントの待ち時間に対する堅牢性と利用不可能性を高めるため,我々は,信頼度を固定した純粋な探索を行うための,最初の非同期多重武装バンディットと線形バンディットアルゴリズムを提案する。
提案アルゴリズムは, 完全非同期環境において, ほぼ最適サンプルの複雑さと効率的な通信コストを実現する。
さらに、実世界の合成データに基づく実験結果により、提案アルゴリズムの有効性と通信コスト効率を実証的に解明する。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - A Federated Online Restless Bandit Framework for Cooperative Resource Allocation [23.698976872351576]
MRPの未知系力学を用いた協調資源配分問題について検討する。
我々は、このマルチエージェントオンラインRMAB問題を解決するために、フェデレートトンプソン対応Whittle Index(FedTSWI)アルゴリズムを作成した。
数値計算の結果,提案アルゴリズムは,ベースラインと比較して,$mathcalO(sqrtTlog(T))$の高速収束率と性能の向上を実現している。
論文 参考訳(メタデータ) (2024-06-12T08:34:53Z) - Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Federated Contextual Cascading Bandits with Asynchronous Communication
and Heterogeneous Users [95.77678166036561]
繊細な通信プロトコルを用いたUPB型アルゴリズムを提案する。
同期フレームワークで達成されたものと同等のサブ線形後悔境界を与えます。
合成および実世界のデータセットに関する実証評価は、後悔と通信コストの観点から、我々のアルゴリズムの優れた性能を検証する。
論文 参考訳(メタデータ) (2024-02-26T05:31:14Z) - Incentivized Communication for Federated Bandits [67.4682056391551]
我々は,サーバがインセンティブを提供することでクライアントにデータを共有する動機付けを行う,フェデレートされた盗賊に対するインセンティブ付きコミュニケーション問題を導入する。
本稿では,実証可能な通信とインセンティブコスト保証により,ほぼ最適の後悔を実現する,最初のインセンティブ付き通信プロトコルであるInc-FedUCBを提案する。
論文 参考訳(メタデータ) (2023-09-21T00:59:20Z) - Communication-Efficient Collaborative Best Arm Identification [6.861971769602314]
エージェントが協調して目的関数を学習するマルチエージェント学習モデルにおいて,バンドイット理論の基本的な問題であるトップ・m$腕識別について検討する。
私たちは、最大限のスピードアップを達成するための協調学習アルゴリズムの設計に興味を持っています。
論文 参考訳(メタデータ) (2022-08-18T19:02:29Z) - Finite-Time Consensus Learning for Decentralized Optimization with
Nonlinear Gossiping [77.53019031244908]
本稿では,非線形ゴシップ(NGO)に基づく分散学習フレームワークを提案する。
コミュニケーション遅延とランダム化チャットが学習にどう影響するかを解析することで,実践的なバリエーションの導出が可能となる。
論文 参考訳(メタデータ) (2021-11-04T15:36:25Z) - Cooperative Multi-Agent Bandits with Heavy Tails [15.609414012418043]
エージェント群が共通のバンドイット問題と相互作用する,協調的マルチエージェント設定におけるヘビーテールバンドイット問題について検討する。
この設定における既存のバンディットのアルゴリズムは、平均化ベースの通信プロトコルから生じる信頼区間を利用する。
我々は,メッセージパッシングプロトコルを用いたロバストな推定を組み込んだ協調帯域の分散マルチエージェントアルゴリズムであるtextscMP-UCB を提案する。
論文 参考訳(メタデータ) (2020-08-14T08:34:32Z) - Task-Based Information Compression for Multi-Agent Communication
Problems with Channel Rate Constraints [28.727611928919725]
本稿では,情報圧縮アルゴリズム(SAIC)のステートアグリゲーションを導入し,定式化TBIC問題の解法を提案する。
その結果,SAICは割引報酬の総和でほぼ最適性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-28T18:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。