論文の概要: PubSwap: Public-Data Off-Policy Coordination for Federated RLVR
- arxiv url: http://arxiv.org/abs/2604.12160v1
- Date: Tue, 14 Apr 2026 00:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.171928
- Title: PubSwap: Public-Data Off-Policy Coordination for Federated RLVR
- Title(参考訳): PubSwap: フェデレートされたRLVRのための公開データオフポリティコーディネート
- Authors: Anupam Nayak, Baris Askin, Muhammed Ustaomeroglu, Carlee Joe-Wong, Gauri Joshi,
- Abstract要約: 本稿では,LoRAに基づく局所的適応と公共データに基づくオフポリシーのステップを組み合わせ,通信効率とクロスクライアント協調性の両方を改善するための連合RLVRフレームワークを提案する。
本稿は,低ランクコミュニケーションと限定的な公開データ調整を併用した,フェデレート推論後学習のためのシンプルで効果的なレシピについて紹介する。
- 参考スコア(独自算出の注目度): 26.391752418306677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning post-training with reinforcement learning from verifiable rewards (RLVR) is typically studied in centralized settings, yet many realistic applications involve decentralized private data distributed across organizations. Federated training is a natural solution, but scaling RLVR in this regime is challenging: full-model synchronization is expensive, and performing many local steps can cause severe client drift under heterogeneous data. We propose a federated RLVR framework that combines LoRA-based local adaptation with public-data-based off-policy steps to improve both communication efficiency and cross-client coordination. In particular, a small shared public dataset is used to periodically exchange and reuse response-level training signals across organizations, providing a lightweight anchor toward a more globally aligned objective without exposing private data. Our method selectively replaces locally incorrect responses with globally correct ones during public-data steps, thereby keeping training closer to the local policy while still benefiting from cross-client coordination. Across mathematical and medical reasoning benchmarks and models, our method consistently improves over standard baselines. Our results highlight a simple and effective recipe for federated reasoning post-training: combining low-rank communication with limited public-data coordination.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習によるポストトレーニング(Reasoning post-training)は、通常は集中的な設定で研究されるが、現実的なアプリケーションの多くは、組織間で分散された分散プライベートデータを含んでいる。
フルモデル同期は高価であり、多くのローカルステップを実行すると、不均一なデータの下で厳しいクライアントのドリフトが発生する可能性がある。
本稿では,LoRAに基づく局所的適応と公共データに基づくオフポリシーのステップを組み合わせ,通信効率とクロスクライアント協調性の両方を改善するための連合RLVRフレームワークを提案する。
特に、小さな共有公開データセットは、組織間で定期的にレスポンスレベルのトレーニング信号を交換し、再利用するために使用され、プライベートデータを公開せずに、よりグローバルに整合した目標に向けて軽量なアンカーを提供する。
提案手法は, 局所的不正確な応答を, 公開データ段階におけるグローバルな正しい応答に選択的に置き換えることにより, クロスクライアント協調の恩恵を受けながら, ローカルポリシーに近い訓練を継続する。
数学的および医学的推論ベンチマークやモデル全体で、我々の手法は標準ベースラインよりも一貫して改善されている。
本稿は,低ランクコミュニケーションと限定的な公開データ調整を併用した,フェデレート推論後学習のためのシンプルで効果的なレシピについて紹介する。
関連論文リスト
- Accelerating Privacy-Preserving Federated Learning in Large-Scale LEO Satellite Systems [57.692181589325116]
大規模な低地球軌道(LEO)衛星システムは、高速かつ広範囲のデータ交換を可能にする能力によって、ますます価値が高まっている。
プライバシー上の懸念と規制上の制約のため、リモートクライアントで収集された生データを集中的に集約することはできない。
フェデレーション学習は、分散デバイス上でローカルモデルをトレーニングし、モデルパラメータのみを交換することで、プライバシ保護の代替手段を提供する。
本稿では,コミュニケーションリソースを動的に割り当て,フェデレート学習を高速化する,離散時間グラフに基づくオンデマンドスケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-05T03:33:42Z) - FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models [52.13056951033747]
フェデレートラーニング(FL)は、異種クライアントがローカルにプライベートデータを処理し、中央サーバーと対話できるというユニークな特徴から、注目を集めている。
FLにおける重要なボトルネックは通信コストです。
我々の研究は、FLにおける通信複雑性の低減を推進した革新的なScaffnewアルゴリズムにインスパイアされている。
我々はFedComLocを導入し、実用的で効果的な圧縮をScaffnewに統合し、通信効率をさらに高める。
論文 参考訳(メタデータ) (2024-03-14T22:29:59Z) - FedAgg: Adaptive Federated Learning with Aggregated Gradients [1.5653612447564105]
我々はFedAggと呼ばれる適応型FEDerated Learningアルゴリズムを提案し、局所モデルパラメータと平均モデルパラメータのばらつきを緩和し、高速モデル収束率を得る。
IIDおよび非IIDデータセット下でのモデル性能の向上と収束速度の促進を目的として,本手法が既存のFL戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-28T08:07:28Z) - GradSkip: Communication-Accelerated Local Gradient Methods with Better Computational Complexity [54.585248253601314]
本研究では,クライアントが通信前に複数の局所勾配型トレーニングステップを実行できるようにすることにより,通信コストの低減を目的とした分散最適化アルゴリズムのクラスについて検討する。
特に、修正したGradSkipは、同じ仮定の下で線形に収束し、通信複雑性が同じであることを示す。
論文 参考訳(メタデータ) (2022-10-28T20:59:06Z) - DisPFL: Towards Communication-Efficient Personalized Federated Learning
via Decentralized Sparse Training [84.81043932706375]
本稿では,分散型(ピアツーピア)通信プロトコルであるDis-PFLにおいて,新たな個人化フェデレーション学習フレームワークを提案する。
Dis-PFLはパーソナライズされたスパースマスクを使用して、エッジ上のスパースローカルモデルをカスタマイズする。
本手法は,計算複雑性の異なる異種ローカルクライアントに容易に適応できることを実証する。
論文 参考訳(メタデータ) (2022-06-01T02:20:57Z) - Federated Learning from Small Datasets [48.879172201462445]
フェデレーション学習は、複数のパーティが、ローカルデータを共有せずに、共同モデルを共同でトレーニングすることを可能にする。
そこで本研究では,局所モデルの置換とモデルアグリゲーションを連動させる新しい手法を提案する。
置換は、各ローカルモデルをローカルデータセットのデージーチェーンに公開することで、データスパースドメインでのより効率的なトレーニングを実現する。
論文 参考訳(メタデータ) (2021-10-07T13:49:23Z) - Scalable Multi-Agent Reinforcement Learning for Residential Load Scheduling under Data Governance [5.37556626581816]
マルチエージェント強化学習 (MARL) は, 協調型住宅負荷スケジューリング問題において, 顕著な進歩を遂げている。
MARLの最も一般的なパラダイムである集中型トレーニングは、通信制約のあるクラウドエッジ環境における大規模デプロイメントを制限する。
提案手法は,家庭の局所的な観察のみに基づく個人評論家の学習機能である,アクタ批判的手法に基づく。
論文 参考訳(メタデータ) (2021-10-06T14:05:26Z) - Decentralised Learning from Independent Multi-Domain Labels for Person
Re-Identification [69.29602103582782]
ディープラーニングは多くのコンピュータビジョンタスクで成功している。
しかし、プライバシー問題に対する意識の高まりは、特に人物の再識別(Re-ID)において、ディープラーニングに新たな課題をもたらす。
我々は,複数のプライバシ保護されたローカルモデル(ローカルクライアント)を同時に学習することにより,汎用的なグローバルモデル(中央サーバ)を構築するための,フェデレート・パーソナライゼーション(FedReID)と呼ばれる新しいパラダイムを提案する。
このクライアントサーバ共同学習プロセスは、プライバシコントロールの下で反復的に実行されるため、分散データを共有したり、収集したりすることなく、分散学習を実現することができる。
論文 参考訳(メタデータ) (2020-06-07T13:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。