論文の概要: Communication Efficient Federated Learning for Generalized Linear
Bandits
- arxiv url: http://arxiv.org/abs/2202.01087v1
- Date: Wed, 2 Feb 2022 15:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:46:42.388021
- Title: Communication Efficient Federated Learning for Generalized Linear
Bandits
- Title(参考訳): 一般化線形バンディットのための通信効率のよい連合学習
- Authors: Chuanhao Li and Hongning Wang
- Abstract要約: 連合学習環境下での一般化線形バンディットモデルについて検討する。
ローカルな更新とオフラインなリグレッションにオンラインのレグレッションを利用する通信効率の高いソリューションフレームワークを提案する。
我々のアルゴリズムは, 後悔とコミュニケーションの両コストにおいて, サブ線形レートが得られる。
- 参考スコア(独自算出の注目度): 39.1899551748345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit algorithms have been recently studied under the federated
learning setting to satisfy the demand of keeping data decentralized and
pushing the learning of bandit models to the client side. But limited by the
required communication efficiency, existing solutions are restricted to linear
models to exploit their closed-form solutions for parameter estimation. Such a
restricted model choice greatly hampers these algorithms' practical utility. In
this paper, we take the first step to addressing this challenge by studying
generalized linear bandit models under a federated learning setting. We propose
a communication-efficient solution framework that employs online regression for
local update and offline regression for global update. We rigorously proved
that, though the setting is more general and challenging, our algorithm can
attain sub-linear rate in both regret and communication cost, which is also
validated by our extensive empirical evaluations.
- Abstract(参考訳): コンテキストバンディットアルゴリズムは、データの分散化を維持し、バンディットモデルの学習をクライアント側にプッシュするという要求を満たすために、フェデレーション学習環境下で近年研究されている。
しかし、必要な通信効率に制限されるため、既存の解はパラメータ推定のために閉形式解を利用する線形モデルに制限される。
このような制限されたモデル選択は、これらのアルゴリズムの実用性を大いに損なう。
本稿では,一般化線形バンディットモデルを連合学習環境下で研究することで,この問題に対処する第一歩を踏み出す。
本稿では,オンラインレグレッションをローカル更新に,オフラインレグレッションをグローバル更新に利用する通信効率の高いソリューションフレームワークを提案する。
我々は,より一般的かつ困難な設定であるが,本アルゴリズムが後悔とコミュニケーションコストの両方において,サブリニア率を達成可能であることを厳密に証明した。
関連論文リスト
- The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [37.387280102209274]
オフライン強化学習は、事前に収集されたデータセットからエージェントをトレーニング可能にすることを目的としている。
モデルベースの手法は、エージェントが学習されたダイナミックスモデルでロールアウトを介して追加の合成データを収集できるようにすることで、ソリューションを提供する。
しかし、学習したダイナミックスモデルを真のエラーフリーなダイナミックスに置き換えると、既存のモデルベースのメソッドは完全に失敗する。
本稿では, エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Value Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Recursive Euclidean Distance Based Robust Aggregation Technique For
Federated Learning [4.848016645393023]
フェデレーション学習は、機械学習におけるデータ可用性とプライバシの課題に対するソリューションである。
悪意のあるユーザは、ローカルモデルを悪意のあるデータでトレーニングすることで、協調学習プロセスを妨害することを目指している。
ユークリッド距離計算に基づく新しいロバストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T06:48:43Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - Communication Efficient Distributed Learning for Kernelized Contextual
Bandits [58.78878127799718]
分散環境でのカーネル化されたコンテキスト帯域の学習における通信効率の課題に対処する。
我々は、エージェントが再現されたカーネルヒルベルト空間で協調的に探索できるようにすることにより、非線形報酬写像を考える。
我々は, 後悔とコミュニケーションの両コストにおいて, アルゴリズムがサブ線形レートを達成できることを厳格に証明した。
論文 参考訳(メタデータ) (2022-06-10T01:39:15Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Asynchronous Upper Confidence Bound Algorithms for Federated Linear
Bandits [35.47147821038291]
本稿では,同種クライアントと異種クライアントの集合に対する非同期モデル更新と通信を行う汎用フレームワークを提案する。
この分散学習フレームワークにおける後悔とコミュニケーションのコストに関する厳密な理論的分析が提供される。
論文 参考訳(メタデータ) (2021-10-04T14:01:32Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。