論文の概要: Reward Teaching for Federated Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2305.02441v1
- Date: Wed, 3 May 2023 22:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 17:46:57.330701
- Title: Reward Teaching for Federated Multi-armed Bandits
- Title(参考訳): フェデレーション・マルチアームバンドのためのリワード指導
- Authors: Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang
- Abstract要約: 本研究は,自己の累積報酬を常に最大化する顧客に焦点を当て,新たな「リワード・インストラクション」のアイデアを導入する。
teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。
厳密な分析は、UTB1でクライアントと向き合う場合、TWLは、サブ最適ギャップへの依存という点でTALを上回っていることを示している。
- 参考スコア(独自算出の注目度): 23.000116974718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing federated multi-armed bandits (FMAB) designs are based
on the presumption that clients will implement the specified design to
collaborate with the server. In reality, however, it may not be possible to
modify the client's existing protocols. To address this challenge, this work
focuses on clients who always maximize their individual cumulative rewards, and
introduces a novel idea of "reward teaching", where the server guides the
clients towards global optimality through implicit local reward adjustments.
Under this framework, the server faces two tightly coupled tasks of bandit
learning and target teaching, whose combination is non-trivial and challenging.
A phased approach, called Teaching-After-Learning (TAL), is first designed to
encourage and discourage clients' explorations separately. General performance
analyses of TAL are established when the clients' strategies satisfy certain
mild requirements. With novel technical approaches developed to analyze the
warm-start behaviors of bandit algorithms, particularized guarantees of TAL
with clients running UCB or epsilon-greedy strategies are then obtained. These
results demonstrate that TAL achieves logarithmic regrets while only incurring
logarithmic adjustment costs, which is order-optimal w.r.t. a natural lower
bound. As a further extension, the Teaching-While-Learning (TWL) algorithm is
developed with the idea of successive arm elimination to break the non-adaptive
phase separation in TAL. Rigorous analyses demonstrate that when facing clients
with UCB1, TWL outperforms TAL in terms of the dependencies on sub-optimality
gaps thanks to its adaptive design. Experimental results demonstrate the
effectiveness and generality of the proposed algorithms.
- Abstract(参考訳): 既存のfederated multi-armed bandits (fmab) の設計のほとんどは、クライアントがサーバと協調するために指定された設計を実装するという仮定に基づいている。
しかし実際には、クライアントの既存のプロトコルを変更することはできないかもしれない。
この課題に対処するために、この研究は、常に個々の累積報酬を最大化する顧客に焦点を当て、サーバが暗黙の局所報酬調整を通じてクライアントをグローバルな最適性へと導く「リワード教育」という新しいアイデアを導入する。
このフレームワークでは、サーバはバンド学習と目標教育という2つの密結合されたタスクに直面します。
teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。
talの一般的な性能分析は、クライアントの戦略が一定の穏やかな要求を満たすときに確立される。
バンディットアルゴリズムのウォームスタート動作を解析する新たな技術的アプローチが開発され, UCBやepsilon-greedy戦略を実行するクライアントによるTALの特定保証が得られた。
これらの結果から、TALは対数的不備を達成し、対数的調整コストのみを発生させることが示されている。
さらに、TWLアルゴリズムは、TBの非適応位相分離を断ち切るために、連続したアームの除去という考え方で開発されている。
厳密な分析は、UTB1でクライアントと向き合う場合、TWLはその適応設計により、サブ最適性ギャップへの依存性の観点からTALより優れていることを示した。
実験により提案アルゴリズムの有効性と汎用性を示す。
関連論文リスト
- Submodular Maximization Approaches for Equitable Client Selection in Federated Learning [4.167345675621377]
従来の学習フレームワークでは、トレーニングのためのクライアント選択は、通常、各イテレーションでクライアントのサブセットをランダムにサンプリングする。
本稿では,ランダムクライアント選択の限界に対処するために,SUBTRUNCとUNIONFLという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T22:40:31Z) - Emulating Full Client Participation: A Long-Term Client Selection Strategy for Federated Learning [48.94952630292219]
本稿では,クライアントの完全参加によって達成されるパフォーマンスをエミュレートする新しいクライアント選択戦略を提案する。
1ラウンドで、クライアントサブセットとフルクライアントセット間の勾配空間推定誤差を最小化し、クライアントを選択する。
複数ラウンド選択において、類似したデータ分布を持つクライアントが選択される頻度に類似することを保証する、新しい個性制約を導入する。
論文 参考訳(メタデータ) (2024-05-22T12:27:24Z) - FedCAda: Adaptive Client-Side Optimization for Accelerated and Stable Federated Learning [57.38427653043984]
フェデレートラーニング(FL)は、分散クライアント間の機械学習モデルの協調トレーニングにおいて、顕著なアプローチとして登場した。
我々は,この課題に対処するために設計された,革新的なクライアント適応アルゴリズムであるFedCAdaを紹介する。
我々はFedCAdaが適応性、収束性、安定性、全体的な性能の点で最先端の手法より優れていることを実証する。
論文 参考訳(メタデータ) (2024-05-20T06:12:33Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Personalized Federated Learning via Amortized Bayesian Meta-Learning [21.126405589760367]
我々は,Amortized Bayesian Meta-Learningを通じて,パーソナライズド・フェデレーション・ラーニングの新しい視点を紹介する。
具体的には,クライアント間の階層的変動推論を用いたemphFedABMLという新しいアルゴリズムを提案する。
我々の理論解析は平均一般化誤差の上限を提供し、未知のデータに対する一般化性能を保証する。
論文 参考訳(メタデータ) (2023-07-05T11:58:58Z) - Provably Personalized and Robust Federated Learning [47.50663360022456]
類似したクライアントのクラスタを識別し、パーソナライズされたモデルパークラスタを訓練する簡単なアルゴリズムを提案する。
アルゴリズムの収束率は、クライアントの真の基盤となるクラスタリングを知っていれば得られるものと一致します。
論文 参考訳(メタデータ) (2023-06-14T09:37:39Z) - FilFL: Client Filtering for Optimized Client Participation in Federated Learning [71.46173076298957]
フェデレートラーニングは、クライアントがローカルデータを交換することなく、協調的にモデルをトレーニングすることを可能にする。
トレーニングプロセスに参加するクライアントは、収束率、学習効率、モデル一般化に大きな影響を与えます。
本稿では,モデル一般化を改善し,クライアント参加とトレーニングを最適化する新しい手法であるクライアントフィルタリングを提案する。
論文 参考訳(メタデータ) (2023-02-13T18:55:31Z) - Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated
Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。
我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。
特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文 参考訳(メタデータ) (2022-09-30T05:42:56Z) - Straggler-Resilient Personalized Federated Learning [55.54344312542944]
フェデレーション学習は、プライバシと通信の制限を尊重しながら、クライアントの大規模なネットワークに分散されたサンプルからのトレーニングモデルを可能にする。
これら2つのハードルを同時に処理する理論的なスピードアップを保証する新しいアルゴリズム手法を開発した。
提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。
論文 参考訳(メタデータ) (2022-06-05T01:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。