Fugu-MT 論文翻訳(概要): Collaborative Top Distribution Identifications with Limited Interaction

論文の概要: Collaborative Top Distribution Identifications with Limited Interaction

arxiv url: http://arxiv.org/abs/2004.09454v2
Date: Wed, 9 Sep 2020 02:31:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-11 19:22:01.627132
Title: Collaborative Top Distribution Identifications with Limited Interaction
Title（参考訳）: 限定的相互作用を伴う協調的トップ分布同定
Authors: Nikolai Karpov, Qin Zhang, Yuan Zhou
Abstract要約: 1組の$n$の分布が与えられたら、最大の手段を持つ最上位の$m$の分布を見つける。この問題は強化学習の文献ではm$m$腕識別とも呼ばれる。協調学習モデルでは,n$分布のサンプルを並列に描画できるエージェントが複数存在する。
参考スコア（独自算出の注目度）: 13.930249217532717
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the following problem in this paper: given a set of $n$ distributions, find the top-$m$ ones with the largest means. This problem is also called {\em top-$m$ arm identifications} in the literature of reinforcement learning, and has numerous applications. We study the problem in the collaborative learning model where we have multiple agents who can draw samples from the $n$ distributions in parallel. Our goal is to characterize the tradeoffs between the running time of learning process and the number of rounds of interaction between agents, which is very expensive in various scenarios. We give optimal time-round tradeoffs, as well as demonstrate complexity separations between top-$1$ arm identification and top-$m$ arm identifications for general $m$ and between fixed-time and fixed-confidence variants. As a byproduct, we also give an algorithm for selecting the distribution with the $m$-th largest mean in the collaborative learning model.
Abstract（参考訳）: この論文では以下の問題を考える: 1組の$n$分布が与えられた場合、最大の手段を持つ最上位の$m$分布を見つける。この問題は強化学習の文献において「em top-m$ arm identifications」とも呼ばれ、多くの応用がある。我々は,n$ 分布から複数のエージェントが並列にサンプルを描画できる協調学習モデルでこの問題を研究する。私たちの目標は、学習プロセスの実行時間とエージェント間のインタラクションのラウンド数の間のトレードオフを特徴付けることです。最適な時間単位のトレードオフを与えるとともに、平均1$の腕識別と一般的な$m$の腕識別と固定時間と固定自信の変種の間の複雑さの分離を示す。また、副産物として、協調学習モデルにおいて、$m$-最大の平均で分布を選択するアルゴリズムも提供する。

関連論文リスト

Near Optimal Best Arm Identification for Clustered Bandits [10.146588539113614]
我々は、M$エージェントを$M$クラスタにグループ化し、各クラスタがバンドイト問題を解決する。本稿では,クラスタリング,ベストアーム識別(Cl-BAI),ベストアーム識別(BAI-Cl)の2つの新しいアルゴリズムを提案する。 Cl-BAIは、学習しているバンディット問題に基づいて最初のクラスタエージェントを2フェーズのアプローチで処理し、続いて各クラスタに最適なアームを特定する。 BAI-Clは、まず最適な腕を特定し、次にそれに従ってクラスタリングエージェントを識別することで、配列を反転させる。
論文参考訳（メタデータ） (2025-05-15T10:20:26Z)
Breaking the $\log(1/Δ_2)$ Barrier: Better Batched Best Arm Identification with Adaptive Grids [28.547030766096956]
ほぼ最適なサンプル複雑性を実現するアルゴリズムを導入し、インスタンスに敏感なバッチ複雑性を特徴とする。我々は、この枠組みを線形包帯におけるバッチ化されたベストアーム識別の問題に拡張し、同様の改善を実現する。
論文参考訳（メタデータ） (2025-01-29T01:40:36Z)
Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
Multi-Agent Best Arm Identification in Stochastic Linear Bandits [0.7673339435080443]
固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。我々は、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
論文参考訳（メタデータ） (2024-11-20T20:09:44Z)
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
論文参考訳（メタデータ） (2024-09-08T12:19:12Z)
Representative Arm Identification: A fixed confidence approach to identify cluster representatives [7.459521930846415]
マルチアームバンディット(MAB)フレームワークにおける代表腕識別問題について検討する。 RAI問題は、最高の腕や、上位の$K$から$M$を識別するなど、いくつかのよく研究されたMAB問題としてカバーされている。本稿では,信頼区間の概念に基づく2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-26T11:47:52Z)
Cooperative Multi-Agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文参考訳（メタデータ） (2023-05-10T20:29:29Z)
On the Sample Complexity of Representation Learning in Multi-task Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文参考訳（メタデータ） (2022-11-28T08:40:12Z)
On-Demand Sampling: Learning Optimally from Multiple Distributions [63.20009081099896]
社会と現実世界の考察は、マルチディストリビューション学習パラダイムの台頭につながっている。これらの学習パラダイムの最適なサンプル複雑性を確立し、このサンプル複雑性を満たすアルゴリズムを提供する。アルゴリズムの設計と解析は,ゼロサムゲーム解決のためのオンライン学習手法の拡張によって実現されている。
論文参考訳（メタデータ） (2022-10-22T19:07:26Z)
Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。 Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文参考訳（メタデータ） (2022-01-23T20:04:15Z)
Resource Allocation in Multi-armed Bandit Exploration: Overcoming Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文参考訳（メタデータ） (2020-10-31T18:19:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。