Fugu-MT 論文翻訳(概要): Federated Reinforcement Learning with Environment Heterogeneity

論文の概要: Federated Reinforcement Learning with Environment Heterogeneity

arxiv url: http://arxiv.org/abs/2204.02634v1
Date: Wed, 6 Apr 2022 07:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 13:02:09.565397
Title: Federated Reinforcement Learning with Environment Heterogeneity
Title（参考訳）: 環境不均一性を考慮した連合強化学習
Authors: Hao Jin, Yang Peng, Wenhao Yang, Shusen Wang, Zhihua Zhang
Abstract要約: 我々は,フェデレート強化学習(FedRL)問題について検討し,エージェントと環境相互作用の過程で収集した軌跡を共有せずに,$n$エージェントがひとつの方針を協調的に学習する。本稿では,2つの連合RLアルゴリズム, textttQAvg と textttPAvg を提案する。
参考スコア（独自算出の注目度）: 30.797692838836277
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study a Federated Reinforcement Learning (FedRL) problem in which $n$ agents collaboratively learn a single policy without sharing the trajectories they collected during agent-environment interaction. We stress the constraint of environment heterogeneity, which means $n$ environments corresponding to these $n$ agents have different state transitions. To obtain a value function or a policy function which optimizes the overall performance in all environments, we propose two federated RL algorithms, \texttt{QAvg} and \texttt{PAvg}. We theoretically prove that these algorithms converge to suboptimal solutions, while such suboptimality depends on how heterogeneous these $n$ environments are. Moreover, we propose a heuristic that achieves personalization by embedding the $n$ environments into $n$ vectors. The personalization heuristic not only improves the training but also allows for better generalization to new environments.
Abstract（参考訳）: 我々は,フェデレート強化学習(FedRL)問題について検討し,エージェントと環境相互作用の過程で収集した軌跡を共有せずに,$n$エージェントがひとつの方針を協調的に学習する。環境の不均一性の制約を強調します。つまり、これらの$n$エージェントに対応する$n$環境は、状態遷移が異なるのです。すべての環境における全体的な性能を最適化する値関数やポリシー関数を得るために,フェデレートされた2つのRLアルゴリズム, \texttt{QAvg} と \texttt{PAvg} を提案する。これらのアルゴリズムが準最適解に収束することを理論的に証明し、そのような準最適性はこれらの$n$環境がいかに異質であるかに依存する。さらに,$n$環境を$n$ベクトルに埋め込むことでパーソナライズを実現するヒューリスティックを提案する。パーソナライズヒューリスティックはトレーニングを改善するだけでなく、新しい環境へのより良い一般化を可能にする。

関連論文リスト

Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4～22%の性能向上を実現した。
論文参考訳（メタデータ） (2026-02-10T23:06:02Z)
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。 GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文参考訳（メタデータ） (2026-01-08T18:59:24Z)
AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning [71.4322853508083]
シミュレーション環境における強化学習の実施は、言語ベースのエージェントを強化するためのコスト効率が高く、スケーラブルな方法を提供する。これまでの作業は、半自動化された環境合成や、十分な困難を欠いたタスクに限られており、幅や深さがほとんどない。本稿では,高難易度かつ容易に検証可能なタスクに関連付けられたシミュレーション環境の,自動化されたスケーラブルな合成のための統一パイプラインを提案する。
論文参考訳（メタデータ） (2025-12-28T09:43:11Z)
Federated Reinforcement Learning in Heterogeneous Environments [9.944647907864255]
本研究では, 局所環境が統計的不均一性を示す, 環境不均一性を伴う連邦強化学習(FRL-EH)フレームワークについて検討する。このフレームワーク内では、エージェントは、ローカルな軌跡のプライバシーを維持しながら、集合的な経験を集約することで、グローバルなポリシーを共同で学習する。異質な局所環境とその可塑性摂動におけるロバストな性能を保証する,新たなグローバルな目的関数を提案する。我々は、期待損失を利用してFedRQを連続的な状態空間を持つ環境に拡張し、状態空間の連続部分集合上の値関数を最小化するという重要な課題に対処する。
論文参考訳（メタデータ） (2025-07-19T05:06:38Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。 ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文参考訳（メタデータ） (2024-10-22T09:29:53Z)
Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文参考訳（メタデータ） (2024-06-24T01:37:18Z)
Momentum for the Win: Collaborative Federated Reinforcement Learning across Heterogeneous Environments [17.995517050546244]
我々は、フェデレート強化学習(FRL)問題を探り、N$エージェントが共通の方針を、軌跡データを共有せずに共同で学習する。平均性能関数の定常点に収束するFedSVRPG-MとFedHAPG-Mの2つのアルゴリズムを提案する。我々のアルゴリズムはエージェント数に関して線形収束の高速化を享受しており、共通ポリシーを見つける上でのエージェント間の協調の利点を強調している。
論文参考訳（メタデータ） (2024-05-29T20:24:42Z)
Federated Reinforcement Learning with Constraint Heterogeneity [22.79217297480751]
制約不均一性を伴うフェデレーション強化学習(FedRL)問題について検討する。我々はFedNPGが$tildeO(1/sqrtT)$レートでグローバル収束を実現し、FedPPOはディープニューラルネットワークを用いて複雑な学習タスクを効率的に解決することを示した。
論文参考訳（メタデータ） (2024-05-06T07:44:50Z)
Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis [41.75366066380951]
N$エージェント間の協調によりグローバルモデルを構築する非同期強化学習フレームワークAFedPGを提案する。我々は, AFedPGの理論的大域収束境界を解析し, サンプル複雑性と時間複雑性の両方の観点から, 提案アルゴリズムの利点を特徴づける。我々は,多種多様なエージェントを持つ4つの広く使用されている MuJoCo 環境における AFedPG の性能改善を実証的に検証した。
論文参考訳（メタデータ） (2024-04-09T04:21:13Z)
Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。 GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文参考訳（メタデータ） (2023-09-04T08:59:04Z)
Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing [38.883540444516605]
DARPAはShELLプログラムを立ち上げた。これは、経験共有が分散生涯学習エージェントにどのように役立つかを探求することを目的としている。分散マルチタスク強化学習(RL)の理論的および実証的研究を行い、N$エージェントのグループがM$タスクを協調的に解決する。我々はDistMT-LSVIと呼ばれるアルゴリズムを提案し、各エージェントは独立に$epsilon$-optimal Policyを全ての$M$タスクに対して学習する。
論文参考訳（メタデータ） (2023-07-11T22:58:53Z)
Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T03:48:26Z)
A Relational Intervention Approach for Unsupervised Dynamics Generalization in Model-Based Reinforcement Learning [113.75991721607174]
同じ環境に属する2つの推定$hatz_i, hatz_j$の確率を推定するための介入予測モジュールを導入する。提案手法により推定される$hatZ$は,従来の方法よりも冗長な情報が少ないことを実証的に示す。
論文参考訳（メタデータ） (2022-06-09T15:01:36Z)
Settling the Horizon-Dependence of Sample Complexity in Reinforcement Learning [82.31436758872715]
我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。値関数と有限水平マルコフ決定過程の接続を確立する。
論文参考訳（メタデータ） (2021-11-01T00:21:24Z)
Iterative Feature Matching: Toward Provable Domain Generalization with Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-18T04:39:19Z)
Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文参考訳（メタデータ） (2020-12-03T17:37:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。