論文の概要: Federated Offline Policy Learning with Heterogeneous Observational Data
- arxiv url: http://arxiv.org/abs/2305.12407v1
- Date: Sun, 21 May 2023 09:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:43:52.207069
- Title: Federated Offline Policy Learning with Heterogeneous Observational Data
- Title(参考訳): 不均一観測データを用いたフェデレーションオフライン政策学習
- Authors: Aldo Gael Carranza, Susan Athey
- Abstract要約: 異種データからの観測データにパーソナライズされた決定ポリシーを学習することの問題点を考察する。
本稿では,2つの堅牢なオフラインポリシ評価と学習戦略で訓練されたローカルポリシの集約に基づく,フェデレートされたポリシー学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.20608597274124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning personalized decision policies on
observational data from heterogeneous data sources. Moreover, we examine this
problem in the federated setting where a central server aims to learn a policy
on the data distributed across the heterogeneous sources without exchanging
their raw data. We present a federated policy learning algorithm based on
aggregation of local policies trained with doubly robust offline policy
evaluation and learning strategies. We provide a novel regret analysis for our
approach that establishes a finite-sample upper bound on a notion of global
regret across a distribution of clients. In addition, for any individual
client, we establish a corresponding local regret upper bound characterized by
the presence of distribution shift relative to all other clients. We support
our theoretical findings with experimental results. Our analysis and
experiments provide insights into the value of heterogeneous client
participation in federation for policy learning in heterogeneous settings.
- Abstract(参考訳): 異種データソースからの観測データに対するパーソナライズされた意思決定方針の学習の問題を考える。
さらに,この課題を,中央サーバが生データを交換することなく異種ソースに分散したデータに関するポリシーを学習することを目的としたフェデレート環境で検討する。
本稿では,2つの堅牢なオフラインポリシ評価と学習戦略で訓練されたローカルポリシの集約に基づく,フェデレートされたポリシー学習アルゴリズムを提案する。
我々は,クライアントの分布にまたがる世界的後悔の概念に基づいて,有限サンプル上界を確立するアプローチに対して,新たな後悔分析を行う。
さらに, 個々のクライアントに対して, 他のクライアントに対する分布シフトの存在を特徴とする, 対応する局所的後悔上限を確立する。
実験結果で理論的結果を支持する。
分析と実験により、不均一な環境下での政策学習のためのフェデレーションにおける不均一なクライアント参加の価値についての洞察が得られる。
関連論文リスト
- Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Client Selection for Federated Policy Optimization with Environment
Heterogeneity [0.0]
政策反復(PI)は、強化学習(RL)の多くのアルゴリズムに影響を与えた。
本稿では,Approximate PI (API) のフェデレーションバージョンを調査し,そのエラー境界を導出する。
追加の近似誤差を軽減するために,クライアント選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:48:20Z) - FedAgg: Adaptive Federated Learning with Aggregated Gradients [1.5653612447564105]
フェデレートラーニング(FL)は、分散モデルトレーニングにおいて重要なパラダイムとして登場した。
本稿では,局所的パラメータと平均的パラメータの分散を考慮した適応学習率反復アルゴリズムを提案する。
提案したアルゴリズムに対して堅牢な収束保証を提供し,その適用性を確保する。
論文 参考訳(メタデータ) (2023-03-28T08:07:28Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Straggler-Resilient Personalized Federated Learning [55.54344312542944]
フェデレーション学習は、プライバシと通信の制限を尊重しながら、クライアントの大規模なネットワークに分散されたサンプルからのトレーニングモデルを可能にする。
これら2つのハードルを同時に処理する理論的なスピードアップを保証する新しいアルゴリズム手法を開発した。
提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。
論文 参考訳(メタデータ) (2022-06-05T01:14:46Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - An Experimental Study of Data Heterogeneity in Federated Learning
Methods for Medical Imaging [8.984706828657814]
フェデレーション学習は、複数の機関が、プライバシー保護の方法で、ローカルデータ上で機械学習モデルを協調的にトレーニングすることを可能にする。
本研究では,データ不均一性の分類体系が,量スキュー,ラベル分布スキュー,画像取得スキューなどのフェデレーション学習方法に与える影響について検討した。
本稿では,データ量スキューの重み付き平均値,重み付き損失量,ラベル分布スキューのバッチ正規化平均値など,データの不均一性からの性能低下を克服するいくつかの緩和策を提案する。
論文 参考訳(メタデータ) (2021-07-18T05:47:48Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。