論文の概要: Solving Multi-Arm Bandit Using a Few Bits of Communication
- arxiv url: http://arxiv.org/abs/2111.06067v1
- Date: Thu, 11 Nov 2021 06:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 21:32:08.432156
- Title: Solving Multi-Arm Bandit Using a Few Bits of Communication
- Title(参考訳): 数ビットの通信を用いたマルチアームバンディットの解法
- Authors: Osama A. Hanna, Lin F. Yang, Christina Fragouli
- Abstract要約: マルチアームバンディット問題(マルチアームバンディット問題、MAB)は、報酬を逐次観察することで、一連のアクションの中からベストを選択することを目的とした、アクティブな学習フレームワークである。
分散エージェントが収集した報酬の通信を最適化することで,コミュニケーション問題に対処する。
汎用的な報酬量子化アルゴリズムQuBanを構築し、任意の(非回帰的な)MABアルゴリズムの上に適用して、新しい通信効率の対物を形成する。
- 参考スコア(独自算出の注目度): 42.13277217013971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multi-armed bandit (MAB) problem is an active learning framework that
aims to select the best among a set of actions by sequentially observing
rewards. Recently, it has become popular for a number of applications over
wireless networks, where communication constraints can form a bottleneck.
Existing works usually fail to address this issue and can become infeasible in
certain applications. In this paper we address the communication problem by
optimizing the communication of rewards collected by distributed agents. By
providing nearly matching upper and lower bounds, we tightly characterize the
number of bits needed per reward for the learner to accurately learn without
suffering additional regret. In particular, we establish a generic reward
quantization algorithm, QuBan, that can be applied on top of any (no-regret)
MAB algorithm to form a new communication-efficient counterpart, that requires
only a few (as low as 3) bits to be sent per iteration while preserving the
same regret bound. Our lower bound is established via constructing hard
instances from a subgaussian distribution. Our theory is further corroborated
by numerically experiments.
- Abstract(参考訳): マルチアームバンディット(multi-armed bandit、mab)問題は、報酬を逐次観察することで、一連のアクションの中で最良のものを選択することを目的とした、アクティブな学習フレームワークである。
近年、通信の制約がボトルネックになる可能性がある無線ネットワーク上の多くのアプリケーションで人気が高まっている。
既存の作業は通常この問題に対処できず、特定のアプリケーションでは実現不可能になる可能性がある。
本稿では,分散エージェントが収集した報酬の通信を最適化することで,コミュニケーション問題に対処する。
ほぼ一致した上界と下界を提供することにより,学習者が余計な後悔を伴わずに正確に学習するために必要なビット数を強く特徴付ける。
特に,任意の(非レグリートな)MABアルゴリズム上で適用可能な汎用報酬量子化アルゴリズムQuBanを構築し,同じ後悔境界を保ちながら,イテレーション毎に送信されるビット数(最低3ビット)しか必要としない通信効率の高い新しいアルゴリズムを構築した。
我々の下限は、サブガウス分布からハードインスタンスを構築することによって確立される。
我々の理論は数値実験によってさらに裏付けられている。
関連論文リスト
- Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - ICQ: A Quantization Scheme for Best-Arm Identification Over
Bit-Constrained Channels [9.173160301214805]
マルチアームバンディット設定の分散変種におけるベストアーム識別の問題について検討する。
Inflating Confidence for Quantization (ICQ) と呼ばれる新しい量子化手法を提案する。
論文 参考訳(メタデータ) (2023-04-30T17:00:03Z) - Energy Regularized RNNs for Solving Non-Stationary Bandit Problems [97.72614340294547]
我々は、ニューラルネットワークが特定の行動を支持するのに自信過剰になるのを防ぐエネルギー用語を提案する。
提案手法は,ロッティングバンドのサブプロブレムを解く方法と同じくらい有効であることを示す。
論文 参考訳(メタデータ) (2023-03-12T03:32:43Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Multi-Armed Bandits with Censored Consumption of Resources [9.803834317538747]
我々は、古典的マルチアームバンディット問題のリソース対応版を考える。
各ラウンドで、学習者はアームを選択し、リソース制限を決定する。
その後、使用済みリソースの(ランダム)量が限界以下である場合、対応する(ランダム)報酬を観測する。
論文 参考訳(メタデータ) (2020-11-02T08:27:38Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。