論文の概要: Reward Teaching for Federated Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2305.02441v2
- Date: Mon, 20 Nov 2023 15:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:48:52.420076
- Title: Reward Teaching for Federated Multi-armed Bandits
- Title(参考訳): フェデレーション・マルチアームバンドのためのリワード指導
- Authors: Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang
- Abstract要約: 「この作品は、常に個人の累積報酬を最大化する顧客に焦点を当てており、報酬指導という新しい考え方を取り入れている。」
teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。
厳密な分析は、UTB1でクライアントと向き合う場合、TWLは、サブ最適ギャップへの依存という点でTALを上回っていることを示している。
- 参考スコア(独自算出の注目度): 18.341280891539746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing federated multi-armed bandits (FMAB) designs are based
on the presumption that clients will implement the specified design to
collaborate with the server. In reality, however, it may not be possible to
modify the clients' existing protocols. To address this challenge, this work
focuses on clients who always maximize their individual cumulative rewards, and
introduces a novel idea of ``reward teaching'', where the server guides the
clients towards global optimality through implicit local reward adjustments.
Under this framework, the server faces two tightly coupled tasks of bandit
learning and target teaching, whose combination is non-trivial and challenging.
A phased approach, called Teaching-After-Learning (TAL), is first designed to
encourage and discourage clients' explorations separately. General performance
analyses of TAL are established when the clients' strategies satisfy certain
mild requirements. With novel technical approaches developed to analyze the
warm-start behaviors of bandit algorithms, particularized guarantees of TAL
with clients running UCB or epsilon-greedy strategies are then obtained. These
results demonstrate that TAL achieves logarithmic regrets while only incurring
logarithmic adjustment costs, which is order-optimal w.r.t. a natural lower
bound. As a further extension, the Teaching-While-Learning (TWL) algorithm is
developed with the idea of successive arm elimination to break the non-adaptive
phase separation in TAL. Rigorous analyses demonstrate that when facing clients
with UCB1, TWL outperforms TAL in terms of the dependencies on sub-optimality
gaps thanks to its adaptive design. Experimental results demonstrate the
effectiveness and generality of the proposed algorithms.
- Abstract(参考訳): 既存のfederated multi-armed bandits (fmab) の設計のほとんどは、クライアントがサーバと協調するために指定された設計を実装するという仮定に基づいている。
しかし実際には、クライアントの既存のプロトコルを変更することは不可能かもしれない。
この課題に対処するため、本研究では、個々の累積報酬を常に最大化するクライアントに注目し、サーバが暗黙のローカル報酬調整を通じて、クライアントをグローバル最適へと導く‘reward teaching’という斬新なアイデアを導入している。
このフレームワークでは、サーバはバンド学習と目標教育という2つの密結合されたタスクに直面します。
teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。
talの一般的な性能分析は、クライアントの戦略が一定の穏やかな要求を満たすときに確立される。
バンディットアルゴリズムのウォームスタート動作を解析する新たな技術的アプローチが開発され, UCBやepsilon-greedy戦略を実行するクライアントによるTALの特定保証が得られた。
これらの結果から、TALは対数的不備を達成し、対数的調整コストのみを発生させることが示されている。
さらに、TWLアルゴリズムは、TBの非適応位相分離を断ち切るために、連続したアームの除去という考え方で開発されている。
厳密な分析は、UTB1でクライアントと向き合う場合、TWLはその適応設計により、サブ最適性ギャップへの依存性の観点からTALより優れていることを示した。
実験により提案アルゴリズムの有効性と汎用性を示す。
関連論文リスト
- Reinforcement Learning as a Catalyst for Robust and Fair Federated
Learning: Deciphering the Dynamics of Client Contributions [6.318638597489423]
Reinforcement Federated Learning (RFL)は、深い強化学習を活用して、集約中のクライアントコントリビューションを適応的に最適化する新しいフレームワークである。
堅牢性に関しては、RFLは同等の公平性を維持しつつ、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-02-08T10:22:12Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Personalized Federated Learning via Amortized Bayesian Meta-Learning [21.126405589760367]
我々は,Amortized Bayesian Meta-Learningを通じて,パーソナライズド・フェデレーション・ラーニングの新しい視点を紹介する。
具体的には,クライアント間の階層的変動推論を用いたemphFedABMLという新しいアルゴリズムを提案する。
我々の理論解析は平均一般化誤差の上限を提供し、未知のデータに対する一般化性能を保証する。
論文 参考訳(メタデータ) (2023-07-05T11:58:58Z) - Provably Personalized and Robust Federated Learning [47.50663360022456]
類似したクライアントのクラスタを識別し、パーソナライズされたモデルパークラスタを訓練する簡単なアルゴリズムを提案する。
アルゴリズムの収束率は、クライアントの真の基盤となるクラスタリングを知っていれば得られるものと一致します。
論文 参考訳(メタデータ) (2023-06-14T09:37:39Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated
Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。
我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。
特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文 参考訳(メタデータ) (2022-09-30T05:42:56Z) - Straggler-Resilient Personalized Federated Learning [55.54344312542944]
フェデレーション学習は、プライバシと通信の制限を尊重しながら、クライアントの大規模なネットワークに分散されたサンプルからのトレーニングモデルを可能にする。
これら2つのハードルを同時に処理する理論的なスピードアップを保証する新しいアルゴリズム手法を開発した。
提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。
論文 参考訳(メタデータ) (2022-06-05T01:14:46Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。