Fugu-MT 論文翻訳(概要): Multi-Agent Best Arm Identification in Stochastic Linear Bandits

論文の概要: Multi-Agent Best Arm Identification in Stochastic Linear Bandits

arxiv url: http://arxiv.org/abs/2411.13690v1
Date: Wed, 20 Nov 2024 20:09:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.649164
Title: Multi-Agent Best Arm Identification in Stochastic Linear Bandits
Title（参考訳）: 確率線形帯域におけるマルチエージェントベストアーム識別
Authors: Sanjana Agrawal, Saúl A. Blanco,
Abstract要約: 固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。我々は、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
参考スコア（独自算出の注目度）: 0.7673339435080443
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We study the problem of collaborative best-arm identification in stochastic linear bandits under a fixed-budget scenario. In our learning model, we consider multiple agents connected through a star network or a generic network, interacting with a linear bandit instance in parallel. The objective of the agents is to collaboratively learn the best arm of the given bandit instance with the help of a central server while minimizing the probability of error in best arm estimation. For this purpose, we devise the algorithms MaLinBAI-Star and MaLinBAI-Gen for star networks and generic networks respectively. Both algorithms employ an Upper-Confidence-Bound approach where agents share their knowledge through the central server during each communication round. We demonstrate, both theoretically and empirically, that our algorithms enjoy exponentially decaying probability of error in the allocated time budget. Furthermore, experimental results based on synthetic and real-world data validate the effectiveness of our algorithms over the existing multi-agent algorithms.
Abstract（参考訳）: 固定予算シナリオ下での確率線形包帯における協調的ベストアーム識別の問題について検討する。学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。エージェントの目的は、ベストアーム推定におけるエラーの可能性を最小化しつつ、中央サーバの助けを借りて、与えられたバンディットインスタンスのベストアームを協調的に学習することである。この目的のために、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。どちらのアルゴリズムも上信頼境界アプローチを採用しており、各通信ラウンドの間、エージェントは中央サーバーを通して知識を共有する。我々は、理論的にも経験的にも、割り当てられた時間予算においてアルゴリズムが指数関数的に誤差の確率を楽しむことを実証する。さらに、実世界の合成データに基づく実験結果により、既存のマルチエージェントアルゴリズムよりもアルゴリズムの有効性が検証された。

関連論文リスト

Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Scalable Decentralized Algorithms for Online Personalized Mean Estimation [12.002609934938224]
本研究は,各エージェントが実数値分布からサンプルを収集し,その平均値を推定する,オーバーアーキシング問題の簡易版に焦点を当てた。 1つは信念の伝播からインスピレーションを得ており、もう1つはコンセンサスに基づくアプローチを採用している。
論文参考訳（メタデータ） (2024-02-20T08:30:46Z)
Interacting Particle Systems on Networks: joint inference of the network and the interaction kernel [8.535430501710712]
エージェント間の相互作用のルールを決定するネットワークとシステムの重み行列を推論する。我々は2つのアルゴリズムを使用する: 1つは演算子回帰と呼ばれる新しいアルゴリズムで、最小2乗のデータを交互に更新する。どちらのアルゴリズムも、識別可能性と適正性を保証するスケーラブルな条件である。
論文参考訳（メタデータ） (2024-02-13T12:29:38Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-17T06:04:00Z)
Clustered Multi-Agent Linear Bandits [5.893124686141782]
クラスタ化多重エージェント線形バンドイットと呼ばれる,マルチエージェント線形バンドイット問題の特定の事例に対処する。本稿では,エージェント間の効率的な協調を利用して最適化問題を高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-15T19:01:42Z)
Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文参考訳（メタデータ） (2023-03-29T22:06:24Z)
Communication-Efficient Collaborative Best Arm Identification [6.861971769602314]
エージェントが協調して目的関数を学習するマルチエージェント学習モデルにおいて,バンドイット理論の基本的な問題であるトップ・m$腕識別について検討する。私たちは、最大限のスピードアップを達成するための協調学習アルゴリズムの設計に興味を持っています。
論文参考訳（メタデータ） (2022-08-18T19:02:29Z)
On the Convergence of Distributed Stochastic Bilevel Optimization Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文参考訳（メタデータ） (2022-06-30T05:29:52Z)
Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文参考訳（メタデータ） (2022-06-01T00:44:53Z)
Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文参考訳（メタデータ） (2022-02-09T06:05:05Z)
Detection of Insider Attacks in Distributed Projected Subgradient Algorithms [11.096339082411882]
汎用ニューラルネットワークは悪質なエージェントの検出とローカライズに特に適していることを示す。本稿では,連合学習における最先端のアプローチ,すなわち協調型ピアツーピア機械学習プロトコルを採用することを提案する。シミュレーションでは,AIに基づく手法の有効性と有効性を検証するために,最小二乗問題を考える。
論文参考訳（メタデータ） (2021-01-18T08:01:06Z)
A Low Complexity Decentralized Neural Net with Centralized Equivalence using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文参考訳（メタデータ） (2020-09-29T13:08:12Z)
Kernel Methods for Cooperative Multi-Agent Contextual Bandits [15.609414012418043]
協調的マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら、学習問題を協調的に解決するエージェントのグループを含む。エージェントが得られる報酬は、関連するカーネル再生ヒルベルト空間(RKHS)におけるコンテキストのイメージの任意の線形関数である。我々は, 年齢ごとの後悔に対して, ほぼ最適境界を与えるアルゴリズムであるtextscCoop- KernelUCBを提案する。
論文参考訳（メタデータ） (2020-08-14T07:37:44Z)
Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文参考訳（メタデータ） (2020-06-29T14:25:51Z)
Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文参考訳（メタデータ） (2020-03-19T13:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。