論文の概要: FedHQL: Federated Heterogeneous Q-Learning
- arxiv url: http://arxiv.org/abs/2301.11135v1
- Date: Thu, 26 Jan 2023 14:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 13:35:53.846575
- Title: FedHQL: Federated Heterogeneous Q-Learning
- Title(参考訳): FedHQL: 異種Q-Learningのフェデレーション
- Authors: Flint Xiaofeng Fan, Yining Ma, Zhongxiang Dai, Cheston Tan, Bryan Kian
Hsiang Low, Roger Wattenhofer
- Abstract要約: フェデレート強化学習(Federated Reinforcement Learning, FedRL)は、分散エージェントが互いに経験から集合的に学び、生の軌跡を交換することなく、パフォーマンスを改善することを奨励する。
現実世界のアプリケーションでは、エージェントはアーキテクチャとパラメータに異を唱えることが多い。
本稿では,これらの課題に主に対処するFederated Heterogeneous Q-Learning(FedHQL)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 32.01715758422344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Reinforcement Learning (FedRL) encourages distributed agents to
learn collectively from each other's experience to improve their performance
without exchanging their raw trajectories. The existing work on FedRL assumes
that all participating agents are homogeneous, which requires all agents to
share the same policy parameterization (e.g., network architectures and
training configurations). However, in real-world applications, agents are often
in disagreement about the architecture and the parameters, possibly also
because of disparate computational budgets. Because homogeneity is not given in
practice, we introduce the problem setting of Federated Reinforcement Learning
with Heterogeneous And bLack-box agEnts (FedRL-HALE). We present the unique
challenges this new setting poses and propose the Federated Heterogeneous
Q-Learning (FedHQL) algorithm that principally addresses these challenges. We
empirically demonstrate the efficacy of FedHQL in boosting the sample
efficiency of heterogeneous agents with distinct policy parameterization using
standard RL tasks.
- Abstract(参考訳): フェデレーション強化学習(federated reinforcement learning, fedrl)は、分散エージェントが互いに経験から学習し、生のトラジェクタを交換することなくパフォーマンスを改善することを奨励する。
既存のFedRLの研究は、全てのエージェントが均質であり、すべてのエージェントが同じポリシーパラメータ化(ネットワークアーキテクチャやトレーニング設定など)を共有する必要があると仮定している。
しかし、現実のアプリケーションでは、エージェントはアーキテクチャとパラメータに関してしばしば意見が一致しない。
均質性は実際には与えられないため、異種性およびbLack-box agEnts (FedRL-HALE) を用いたフェデレーション強化学習の問題設定を導入する。
本稿では,これらの課題に主に対処するFederated Heterogeneous Q-Learning(FedHQL)アルゴリズムを提案する。
我々は、標準RLタスクを用いたポリシーパラメータ化の異なる異種エージェントのサンプル効率を高めるためのFedHQLの有効性を実証的に実証した。
関連論文リスト
- On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations [15.549340968605234]
フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:42:43Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - CAESAR: Enhancing Federated RL in Heterogeneous MDPs through Convergence-Aware Sampling with Screening [24.230715083647173]
既存のFedRLメソッドは、一般的に、エージェントのパフォーマンスを改善するために、それらの値関数を平均化することで、エージェントの学習を集約する。
我々は,多様なMDPを対象とした個別エージェントの学習を促進するために,CAESAR(Convergence-AwarE SAmpling with screening)アグリゲーションスキームを導入する。
エージェントの学習効率を高めるためのCAESARの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2024-03-29T13:05:59Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Every Parameter Matters: Ensuring the Convergence of Federated Learning
with Dynamic Heterogeneous Models Reduction [22.567754688492414]
クロスデバイス・フェデレーション・ラーニング(FL)は、ユニークなコントリビューションを行う可能性のあるローエンドのクライアントが、リソースのボトルネックのため、大規模なモデルのトレーニングから除外されるという、大きな課題に直面します。
近年,グローバルモデルから縮小サイズのモデルを抽出し,それに応じてローカルクライアントに適用することによって,モデル不均一FLに焦点を当てている。
本稿では,オンラインモデル抽出を用いた不均一FLアルゴリズムの一元化フレームワークを提案し,一般収束解析を初めて提供する。
論文 参考訳(メタデータ) (2023-10-12T19:07:58Z) - The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup
and Beyond [44.43850105124659]
地域データだけで訓練された局所的なQ-推定を周期的に集約することで、最適なQ-関数を学習することを目的とした、連合型Q-ラーニングについて考察する。
フェデレートされたQ-ラーニングの同期型と非同期型の両方に対して,複雑性の保証を行う。
本稿では,より頻繁に訪れる状態-行動ペアに対して,重み付けを重要視する新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:18:59Z) - Heterogeneous Federated Learning via Grouped Sequential-to-Parallel
Training [60.892342868936865]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保護のためのコラボレーション機械学習パラダイムである。
本稿では,この課題に対処するため,データヘテロジニアス・ロバストFLアプローチであるFedGSPを提案する。
その結果,FedGSPは7つの最先端アプローチと比較して平均3.7%の精度向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-01-31T03:15:28Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。