Fugu-MT 論文翻訳(概要): Federated Distributional Reinforcement Learning with Distributional Critic Regularization

論文の概要: Federated Distributional Reinforcement Learning with Distributional Critic Regularization

arxiv url: http://arxiv.org/abs/2603.17820v1
Date: Wed, 18 Mar 2026 15:12:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.775917
Title: Federated Distributional Reinforcement Learning with Distributional Critic Regularization
Title（参考訳）: 分布批判規則化を用いたフェデレーション分散強化学習
Authors: David Millard, Cecilia Alm, Rashid Ali, Pengcheng Shi, Ali Baheri,
Abstract要約: フェデレーション強化学習は通常、パラメータ平均化によって値関数やポリシーを集約する。我々はFedDistRLを定式化し、クライアントは量子値関数の批判をパラメータ化し、これらのネットワークのみをフェデレートする。また, TR-FedDistRLを提案する。これは, 時間バッファ上に, クライアント毎のリスクを意識した Wasserstein Barycenter を構築する。
参考スコア（独自算出の注目度）: 9.308789032903153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Federated reinforcement learning typically aggregates value functions or policies by parameter averaging, which emphasizes expected return and can obscure statistical multimodality and tail behavior that matter in safety-critical settings. We formalize federated distributional reinforcement learning (FedDistRL), where clients parametrize quantile value function critics and federate these networks only. We also propose TR-FedDistRL, which builds a per client, risk-aware Wasserstein barycenter over a temporal buffer. This local barycenter provides a reference region to constrain the parameter averaged critic, ensuring necessary distributional information is not averaged out during the federation process. The distributional trust region is implemented as a shrink-squash step around this reference. Under fixed-policy evaluation, the feasibility map is nonexpansive and the update is contractive in a probe-set Wasserstein metric under evaluation. Experiments on a bandit, multi-agent gridworld, and continuous highway environment show reduced mean-smearing, improved safety proxies (catastrophe/accident rate), and lower critic/policy drift versus mean-oriented and non-federated baselines.
Abstract（参考訳）: フェデレーション強化学習は通常、パラメータ平均化によって値関数やポリシーを集約するが、これは期待されるリターンを強調し、安全クリティカルな設定で重要な統計的多要素性とテールの振る舞いを曖昧にすることができる。我々は、クライアントが量子値関数の批判をパラメータ化し、これらのネットワークのみをフェデレートするフェデレーション分散強化学習(FedDistRL)を定式化する。また,TR-FedDistRLを提案する。これは時間バッファ上に,クライアント毎のリスクを意識したWassersteinバリセンタを構築する。この局所バリセンタは、パラメータ平均化批評家を制約する基準領域を提供し、フェデレーションプロセス中に必要な分布情報が平均化されないようにする。分布信頼領域は、この基準を取り巻く縮小スカッシュステップとして実装される。固定政治評価では、実現可能性マップは拡張不可能であり、更新は評価中のプローブセットのワッサーシュタイン計量で収縮する。バンディット,マルチエージェントグリッドワールド,および連続ハイウェイ環境の実験では,平均スミアリングが減少し,安全プロキシ(カタストロフィ/事故率)が向上し,平均指向および非フェデレートベースラインに対する批判/政治のドリフトが低下した。

関連論文リスト

Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。 textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文参考訳（メタデータ） (2026-03-10T04:07:39Z)
BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。 BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文参考訳（メタデータ） (2026-03-05T08:03:05Z)
DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。 DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文参考訳（メタデータ） (2026-02-05T17:07:42Z)
FedGreed: A Byzantine-Robust Loss-Based Aggregation Method for Federated Learning [1.3853653640712935]
フェデレートラーニング(FL)は、デバイス上のローカルデータセットを保持することで、データのプライバシを保ちながら、複数のクライアント間で協調的なモデルトレーニングを可能にする。本研究では,クライアントがビザンツ攻撃を行い,クライアントが逆さまに振る舞うようなFL設定に対処する一方,中央サーバは信頼され,参照データセットが装備される。本稿では,フェデレート学習のためのレジリエントアグリゲーション戦略であるFedGreedを提案する。
論文参考訳（メタデータ） (2025-08-25T14:20:19Z)
Don't Reach for the Stars: Rethinking Topology for Resilient Federated Learning [1.3270838622986498]
フェデレートラーニング(FL)は、データをローカルに保つことでデータのプライバシを保護しながら、分散クライアント間で協調的なモデルトレーニングを可能にする。従来のFLアプローチは、中央サーバがクライアントからモデル更新を集約する、集中型の星型トポロジーに依存しています。本稿では,P2P (P2P) FLフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-07T10:10:37Z)
Personalized Bayesian Federated Learning with Wasserstein Barycenter Aggregation [8.988135979947947]
FedWBAはローカル推論とグローバルアグリゲーションの両方を強化する新しいPBFL法である。我々はFedWBAの地域的およびグローバルな収束保証を提供する。実験により、FedWBAは予測精度、不確実性校正、収束率においてベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2025-05-20T10:14:32Z)
Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap [3.351714665243138]
我々は,マルコフ決定過程(MDP)における非政治的評価の課題を再考し,分布重なりというより弱い概念の下で検討する。本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。我々の実験では、強い分布重なりが保たない場合、適切な乱れが、政治外の正確な評価を可能にする上で重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2024-02-13T03:55:56Z)
Acceleration of Federated Learning with Alleviated Forgetting in Local Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文参考訳（メタデータ） (2022-03-05T02:31:32Z)
Learning Calibrated Uncertainties for Domain Shift: A Distributionally Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。提案手法は下流タスクに有利な校正不確実性を生成する。
論文参考訳（メタデータ） (2020-10-08T02:10:54Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。