論文の概要: FOVA: Offline Federated Reinforcement Learning with Mixed-Quality Data
- arxiv url: http://arxiv.org/abs/2512.02350v1
- Date: Tue, 02 Dec 2025 02:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.693131
- Title: FOVA: Offline Federated Reinforcement Learning with Mixed-Quality Data
- Title(参考訳): FOVA:混合品質データによるオフライン強化学習
- Authors: Nan Qiao, Sheng Yue, Ju Ren, Yaoxue Zhang,
- Abstract要約: オフラインフェデレーション強化学習(FRL)
本稿では,新しい投票方式のオフラインFRLフレームワークFOVAを紹介する。
この手法は,地域政策評価において,低品質な行動のネガティブな影響を軽減し,高いリターン動作を識別するエンフェボイト機構を利用する。
- 参考スコア(独自算出の注目度): 22.024833953049313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Federated Reinforcement Learning (FRL), a marriage of federated learning and offline reinforcement learning, has attracted increasing interest recently. Albeit with some advancement, we find that the performance of most existing offline FRL methods drops dramatically when provided with mixed-quality data, that is, the logging behaviors (offline data) are collected by policies with varying qualities across clients. To overcome this limitation, this paper introduces a new vote-based offline FRL framework, named FOVA. It exploits a \emph{vote mechanism} to identify high-return actions during local policy evaluation, alleviating the negative effect of low-quality behaviors from diverse local learning policies. Besides, building on advantage-weighted regression (AWR), we construct consistent local and global training objectives, significantly enhancing the efficiency and stability of FOVA. Further, we conduct an extensive theoretical analysis and rigorously show that the policy learned by FOVA enjoys strict policy improvement over the behavioral policy. Extensive experiments corroborate the significant performance gains of our proposed algorithm over existing baselines on widely used benchmarks.
- Abstract(参考訳): オフライン・フェデレーション強化学習(FRL)は、フェデレーション学習とオフライン強化学習の結婚であり、近年注目を集めている。
また,既存のオフラインFRL手法の性能は,ある程度の進展とともに劇的に低下する。つまり,ログの挙動(オフラインデータ)は,クライアントごとに異なる品質のポリシーによって収集される。
この制限を克服するために、新しい投票ベースのオフラインFRLフレームワーク、FOVAを紹介した。
ローカルな政策評価において、低品質な行動が様々なローカルな学習ポリシーから負の効果を和らげるために、"emph{vote mechanism}"を活用している。
さらに,優位重み付き回帰(AWR)に基づいて一貫した局所的およびグローバルな訓練目標を構築し,FOVAの効率性と安定性を著しく向上させる。
さらに、我々は広範な理論的分析を行い、FOVAが学んだ政策が行動政策よりも厳格な政策改善を享受していることを明確に示す。
大規模な実験は、提案アルゴリズムが広く使用されているベンチマーク上で既存のベースラインよりも大きな性能向上を裏付けるものである。
関連論文リスト
- A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [45.19254609437857]
オンライン強化学習(RL)は、複雑で安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、限定的な解釈可能性に悩まされている。
データ属性は、モデルの振る舞いをトレーニングサンプルに遡る、原則化された方法を提供する。
本稿では、オンラインRLトレーニングのためのアルゴリズムである反復的影響ベースのフィルタリング(IIF)を提案し、ポリシー更新を洗練するための経験的フィルタリングを反復的に行う。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL [42.57662196581823]
オフ・ポリティクス強化学習(RL)は、多くの複雑な現実世界のタスクに取り組むことで顕著な成功を収めた。
既存のRLアルゴリズムの多くは、リプレイバッファ内の情報を最大限活用できない。
OBAC(Offline-Boosted Actor-Critic)は、モデルのないオンラインRLフレームワークで、優れたオフラインポリシーをエレガントに識別する。
論文 参考訳(メタデータ) (2024-05-28T18:38:46Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Data Valuation for Offline Reinforcement Learning [1.3535770763481902]
オフライン強化学習の分野は、データの収集をドメインの専門家や注意深く監視されたプログラムにアウトソーシングすることで問題に対処する。
データマーケットの出現に伴い、社内でデータセットを構築する代替手段として、外部データを購入することが挙げられる。
これにより、外部から取得したデータに基づいてトレーニングされたオフライン強化学習エージェントの転送可能性と堅牢性に関する疑問が提起される。
論文 参考訳(メタデータ) (2022-05-19T13:21:40Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。