Fugu-MT 論文翻訳(概要): Reward Teaching for Federated Multi-armed Bandits

論文の概要: Reward Teaching for Federated Multi-armed Bandits

arxiv url: http://arxiv.org/abs/2305.02441v2
Date: Mon, 20 Nov 2023 15:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 19:48:52.420076
Title: Reward Teaching for Federated Multi-armed Bandits
Title（参考訳）: フェデレーション・マルチアームバンドのためのリワード指導
Authors: Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang
Abstract要約: 「この作品は、常に個人の累積報酬を最大化する顧客に焦点を当てており、報酬指導という新しい考え方を取り入れている。」 teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。厳密な分析は、UTB1でクライアントと向き合う場合、TWLは、サブ最適ギャップへの依存という点でTALを上回っていることを示している。
参考スコア（独自算出の注目度）: 18.341280891539746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most of the existing federated multi-armed bandits (FMAB) designs are based on the presumption that clients will implement the specified design to collaborate with the server. In reality, however, it may not be possible to modify the clients' existing protocols. To address this challenge, this work focuses on clients who always maximize their individual cumulative rewards, and introduces a novel idea of ``reward teaching'', where the server guides the clients towards global optimality through implicit local reward adjustments. Under this framework, the server faces two tightly coupled tasks of bandit learning and target teaching, whose combination is non-trivial and challenging. A phased approach, called Teaching-After-Learning (TAL), is first designed to encourage and discourage clients' explorations separately. General performance analyses of TAL are established when the clients' strategies satisfy certain mild requirements. With novel technical approaches developed to analyze the warm-start behaviors of bandit algorithms, particularized guarantees of TAL with clients running UCB or epsilon-greedy strategies are then obtained. These results demonstrate that TAL achieves logarithmic regrets while only incurring logarithmic adjustment costs, which is order-optimal w.r.t. a natural lower bound. As a further extension, the Teaching-While-Learning (TWL) algorithm is developed with the idea of successive arm elimination to break the non-adaptive phase separation in TAL. Rigorous analyses demonstrate that when facing clients with UCB1, TWL outperforms TAL in terms of the dependencies on sub-optimality gaps thanks to its adaptive design. Experimental results demonstrate the effectiveness and generality of the proposed algorithms.
Abstract（参考訳）: 既存のfederated multi-armed bandits (fmab) の設計のほとんどは、クライアントがサーバと協調するために指定された設計を実装するという仮定に基づいている。しかし実際には、クライアントの既存のプロトコルを変更することは不可能かもしれない。この課題に対処するため、本研究では、個々の累積報酬を常に最大化するクライアントに注目し、サーバが暗黙のローカル報酬調整を通じて、クライアントをグローバル最適へと導く‘reward teaching’という斬新なアイデアを導入している。このフレームワークでは、サーバはバンド学習と目標教育という2つの密結合されたタスクに直面します。 teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。 talの一般的な性能分析は、クライアントの戦略が一定の穏やかな要求を満たすときに確立される。バンディットアルゴリズムのウォームスタート動作を解析する新たな技術的アプローチが開発され, UCBやepsilon-greedy戦略を実行するクライアントによるTALの特定保証が得られた。これらの結果から、TALは対数的不備を達成し、対数的調整コストのみを発生させることが示されている。さらに、TWLアルゴリズムは、TBの非適応位相分離を断ち切るために、連続したアームの除去という考え方で開発されている。厳密な分析は、UTB1でクライアントと向き合う場合、TWLはその適応設計により、サブ最適性ギャップへの依存性の観点からTALより優れていることを示した。実験により提案アルゴリズムの有効性と汎用性を示す。

関連論文リスト

Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文参考訳（メタデータ） (2026-02-09T06:29:54Z)
ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文参考訳（メタデータ） (2026-01-29T16:04:59Z)
COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-06T07:05:18Z)
Adaptive collaboration for online personalized distributed learning with heterogeneous clients [22.507916490976044]
ローカルトレーニングを加速するために, 統計的に異種なクライアントが協力して, オンラインパーソナライズ学習の課題をN$で検討した。この設定における重要な課題は、導入したバイアスを緩和しながら分散を減らすために、関連する協力者を選択することである。
論文参考訳（メタデータ） (2025-07-09T13:44:27Z)
Socially inspired Adaptive Coalition and Client Selection in Federated Learning [36.94429692322632]
フェデレートラーニング(FL)は、プライバシ保護のための協調モデルトレーニングを可能にするが、その効果はクライアントデータの不均一性によって制限されることが多い。 i)合意に基づいてクライアントの非重複連立を動的に形成し、(ii)モデル更新のばらつきを最小限に抑えるために、各連立から1人の代表を選定するクライアント選択アルゴリズムを導入する。提案手法は, 近距離行列をスペクトルクラスタリングに利用し, 集団の集合的意見を推定する最も情報性の高い個人を特定する手法として, ソーシャルネットワークモデリングに着想を得たものである。
論文参考訳（メタデータ） (2025-06-03T14:04:31Z)
Exact and Linear Convergence for Federated Learning under Arbitrary Client Participation is Attainable [9.870718388000645]
この作業は、フェデレートラーニング(FL)における根本的な課題に取り組む。一般的なFedAvgスタイルのアルゴリズムが正確な収束に苦しむことは確実である。 FOCUS, Federated Optimization with Exact Convergence through Push-pull Strategy, a Proprovably convergeent algorithm。
論文参考訳（メタデータ） (2025-03-25T23:54:23Z)
Client-Centric Federated Adaptive Optimization [78.30827455292827]
Federated Learning(FL)は、クライアントが独自のデータをプライベートに保ちながら、協調的にモデルをトレーニングする分散学習パラダイムである。本稿では,新しいフェデレーション最適化手法のクラスであるフェデレーション中心適応最適化を提案する。
論文参考訳（メタデータ） (2025-01-17T04:00:50Z)
Submodular Maximization Approaches for Equitable Client Selection in Federated Learning [4.167345675621377]
従来の学習フレームワークでは、トレーニングのためのクライアント選択は、通常、各イテレーションでクライアントのサブセットをランダムにサンプリングする。本稿では,ランダムクライアント選択の限界に対処するために,SUBTRUNCとUNIONFLという2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-08-24T22:40:31Z)
Emulating Full Client Participation: A Long-Term Client Selection Strategy for Federated Learning [48.94952630292219]
本稿では,クライアントの完全参加によって達成されるパフォーマンスをエミュレートする新しいクライアント選択戦略を提案する。 1ラウンドで、クライアントサブセットとフルクライアントセット間の勾配空間推定誤差を最小化し、クライアントを選択する。複数ラウンド選択において、類似したデータ分布を持つクライアントが選択される頻度に類似することを保証する、新しい個性制約を導入する。
論文参考訳（メタデータ） (2024-05-22T12:27:24Z)
FedCAda: Adaptive Client-Side Optimization for Accelerated and Stable Federated Learning [57.38427653043984]
フェデレートラーニング(FL)は、分散クライアント間の機械学習モデルの協調トレーニングにおいて、顕著なアプローチとして登場した。我々は,この課題に対処するために設計された,革新的なクライアント適応アルゴリズムであるFedCAdaを紹介する。我々はFedCAdaが適応性、収束性、安定性、全体的な性能の点で最先端の手法より優れていることを実証する。
論文参考訳（メタデータ） (2024-05-20T06:12:33Z)
Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-30T13:43:20Z)
Personalized Federated Learning via Amortized Bayesian Meta-Learning [21.126405589760367]
我々は,Amortized Bayesian Meta-Learningを通じて,パーソナライズド・フェデレーション・ラーニングの新しい視点を紹介する。具体的には,クライアント間の階層的変動推論を用いたemphFedABMLという新しいアルゴリズムを提案する。我々の理論解析は平均一般化誤差の上限を提供し、未知のデータに対する一般化性能を保証する。
論文参考訳（メタデータ） (2023-07-05T11:58:58Z)
Provably Personalized and Robust Federated Learning [47.50663360022456]
類似したクライアントのクラスタを識別し、パーソナライズされたモデルパークラスタを訓練する簡単なアルゴリズムを提案する。アルゴリズムの収束率は、クライアントの真の基盤となるクラスタリングを知っていれば得られるものと一致します。
論文参考訳（メタデータ） (2023-06-14T09:37:39Z)
FilFL: Client Filtering for Optimized Client Participation in Federated Learning [71.46173076298957]
フェデレートラーニングは、クライアントがローカルデータを交換することなく、協調的にモデルをトレーニングすることを可能にする。トレーニングプロセスに参加するクライアントは、収束率、学習効率、モデル一般化に大きな影響を与えます。本稿では,モデル一般化を改善し,クライアント参加とトレーニングを最適化する新しい手法であるクライアントフィルタリングを提案する。
論文参考訳（メタデータ） (2023-02-13T18:55:31Z)
Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文参考訳（メタデータ） (2022-09-30T05:42:56Z)
Straggler-Resilient Personalized Federated Learning [55.54344312542944]
フェデレーション学習は、プライバシと通信の制限を尊重しながら、クライアントの大規模なネットワークに分散されたサンプルからのトレーニングモデルを可能にする。これら2つのハードルを同時に処理する理論的なスピードアップを保証する新しいアルゴリズム手法を開発した。提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。
論文参考訳（メタデータ） (2022-06-05T01:14:46Z)
Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文参考訳（メタデータ） (2020-12-07T21:05:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。