論文の概要: Distributed Linear Bandits under Communication Constraints
- arxiv url: http://arxiv.org/abs/2211.02212v1
- Date: Fri, 4 Nov 2022 01:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:02:10.071966
- Title: Distributed Linear Bandits under Communication Constraints
- Title(参考訳): 通信制約下における分散線形バンディット
- Authors: Sudeep Salgia, Qing Zhao
- Abstract要約: 我々は、$M$エージェントがすべてのエージェントによって引き起こされる全体的な累積的後悔を最小限に抑えるために学習する分散線形帯域を考える。
疎線形帯域に対して,提案アルゴリズムの変種は,問題の空間性を活用することにより,より良い後悔とコミュニケーションのトレードオフをもたらすことを示す。
- 参考スコア(独自算出の注目度): 14.007471903973391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider distributed linear bandits where $M$ agents learn collaboratively
to minimize the overall cumulative regret incurred by all agents. Information
exchange is facilitated by a central server, and both the uplink and downlink
communications are carried over channels with fixed capacity, which limits the
amount of information that can be transmitted in each use of the channels. We
investigate the regret-communication trade-off by (i) establishing
information-theoretic lower bounds on the required communications (in terms of
bits) for achieving a sublinear regret order; (ii) developing an efficient
algorithm that achieves the minimum sublinear regret order offered by
centralized learning using the minimum order of communications dictated by the
information-theoretic lower bounds. For sparse linear bandits, we show a
variant of the proposed algorithm offers better regret-communication trade-off
by leveraging the sparsity of the problem.
- Abstract(参考訳): 我々は,M$エージェントが協力して学習し,すべてのエージェントが犯した累積的後悔を最小化する分散線形帯域を考える。
情報交換は中央サーバによって容易であり、アップリンクとダウンリンクの両方の通信は、チャネルの使用毎に送信可能な情報量を制限する固定容量のチャネル上で実行される。
我々は後悔とコミュニケーションのトレードオフを調査する
一 サブリニア後悔の順序を達成するための必要な通信(ビットの点で)に関する情報理論の下限を確立すること。
(ii)情報理論上の下限によって指示される通信の最小次数を用いて、集中学習によって提供される最小の劣線形後悔順序を達成する効率的なアルゴリズムの開発。
疎線形帯域に対して,提案アルゴリズムの変種は,問題の空間性を活用することにより,より良い後悔とコミュニケーションのトレードオフをもたらすことを示す。
関連論文リスト
- On Bits and Bandits: Quantifying the Regret-Information Trade-off [62.64904903955711]
インタラクティブな意思決定タスクでは、情報は直接のインタラクション、間接的なフィードバックの受信、および外部の知識のあるソースから取得することができる。
ビット単位で測定された外部ソースからの情報は、後悔と引き換えに、報酬で測定できることを示す。
エージェントが蓄積する情報に依存する、最初のベイズ的後悔の低い境界を導入する。
論文 参考訳(メタデータ) (2024-05-26T14:18:38Z) - Distributed Policy Gradient for Linear Quadratic Networked Control with
Limited Communication Range [23.500806437272487]
局所的な情報のみを用いて正確な勾配を近似できることを示す。
集中型最適制御器と比較して、通信と制御範囲が増加するにつれて性能ギャップは指数関数的に減少する。
論文 参考訳(メタデータ) (2024-03-05T15:38:54Z) - A Communication-Efficient Adaptive Algorithm for Federated Learning
under Cumulative Regret [22.80372994021181]
学習地平線全体を通して送信されるビットの総数で測定される通信コストを低くして,順序最適累積後悔を実現する分散オンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-21T03:08:18Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Communication Efficient Distributed Learning for Kernelized Contextual
Bandits [58.78878127799718]
分散環境でのカーネル化されたコンテキスト帯域の学習における通信効率の課題に対処する。
我々は、エージェントが再現されたカーネルヒルベルト空間で協調的に探索できるようにすることにより、非線形報酬写像を考える。
我々は, 後悔とコミュニケーションの両コストにおいて, アルゴリズムがサブ線形レートを達成できることを厳格に証明した。
論文 参考訳(メタデータ) (2022-06-10T01:39:15Z) - Settling the Communication Complexity for Distributed Offline
Reinforcement Learning [10.315054389907031]
オフライン強化学習(RL)において,複数の分散マシンが協調して問題解決を行う新たな環境について検討する。
各マシンが送信できる情報の総数(ビット数)には予算の制約がある。
文脈的包帯における値関数の予測と, エピソード的および非エピソード的MDPの双方に対して, ミニマックスリスクに対する情報理論的下限を確立する。
論文 参考訳(メタデータ) (2022-02-10T06:27:07Z) - The Enforcers: Consistent Sparse-Discrete Methods for Constraining
Informative Emergent Communication [5.432350993419402]
コミュニケーションは、エージェントが目標を達成するために協力することを可能にする。
疎間コミュニケーションの学習における最近の研究は、特に協調作業において、コミュニケーションの減少のコストが報酬の減少につながるような、高分散トレーニングに悩まされている。
本研究は、コミュニケーションの減少による報酬の損失を抑え、差別に対するペナルティを排除し、上記の課題に対処する。
論文 参考訳(メタデータ) (2022-01-19T07:31:06Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。