論文の概要: FGRPO: Federated GRPO with Adaptive Aggregation on Non-IID Data
- arxiv url: http://arxiv.org/abs/2606.03094v1
- Date: Tue, 02 Jun 2026 03:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.731229
- Title: FGRPO: Federated GRPO with Adaptive Aggregation on Non-IID Data
- Title(参考訳): FGRPO:非IIDデータに適応的集約を付加したFGRPO
- Authors: Pengyu Chen, Shaowei Li, Kai Wang, Yunsheng Yuan, Kai Han, Jun Luo, Feng Li,
- Abstract要約: グループ相対ポリシー最適化(GRPO)は、批判ネットワークを排除し、優れたスケーラビリティを提供する。
我々は、不均一なデータ所有者間での推論モデルの微調整を分散化するためのフレームワークである、フェデレートされたGRPOを紹介した。
- 参考スコア(独自算出の注目度): 20.603813803213768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in language models have established reinforcement learning as the primary paradigm for eliciting self-correction and long-chain reasoning. While group relative policy optimization (GRPO) offers superior scalability by eliminating the critic network, deploying it on a central infrastructure entails collecting a large volume of data from distributed owners, which poses significant privacy risks. To address these concerns, we introduce federated GRPO (FGRPO), a framework designed to decentralize the fine-tuning of reasoning models across heterogeneous data owners. To effectively mitigate the instability caused by divergent reward scales across heterogeneous tasks, FGRPO incorporates an adaptive aggregation mechanism based on relative performance gain. By characterizing each client's improvement relative to its personalized historical baseline, the framework dynamically prioritizes effective learning trajectories regardless of local task difficulty. FGRPO ensures robust convergence on non-IID data while preserving data privacy.
- Abstract(参考訳): 近年の言語モデルの進歩は、自己訂正と長鎖推論を導く主要なパラダイムとして強化学習を確立している。
グループ相対ポリシー最適化(GRPO)は、批判的ネットワークを排除して優れたスケーラビリティを提供するが、中央インフラストラクチャにデプロイすることで、分散オーナから大量のデータを収集する必要がある。
これらの問題に対処するために、異種データ所有者間での推論モデルの微調整を分散化するフレームワークであるFGRPO(Federated GRPO)を導入する。
不均一なタスク間での報酬スケールのばらつきに起因する不安定性を効果的に緩和するため、FGRPOは相対的な性能ゲインに基づく適応的なアグリゲーション機構を取り入れている。
個人化された履歴ベースラインに対する各クライアントの改善を特徴付けることにより、ローカルタスクの難易度に関わらず、効果的な学習軌跡を動的に優先順位付けする。
FGRPOは、データのプライバシを保持しながら、非IIDデータの堅牢な収束を保証する。
関連論文リスト
- FedGRPO: Privately Optimizing Foundation Models with Group-Relative Rewards from Domain Client [21.08829811371245]
モデルレベルの知識伝達や表現レベルの知識伝達に基づく既存の手法は、高価なローカルトレーニングを必要とするか、高い通信コストを必要とする。
本稿では,この問題を強化学習スタイル評価プロセスとして再検討し,FedGRPOを提案する。
FedGRPOは従来のFedFMのベースラインよりも下流の精度と通信効率が優れている。
論文 参考訳(メタデータ) (2026-02-12T14:45:56Z) - Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models [63.70401095689976]
パラメータを好みに置き換えることは、よりスケーラブルでプライバシに保護される未来を表している、と私たちは主張する。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを用いた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化、堅牢性、およびクロスクライアント適応性において、連邦化されたアライメントベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-31T03:11:51Z) - FedMOA: Federated GRPO for Personalized Reasoning LLMs under Heterogeneous Rewards [16.516565435444445]
GRPOの批判のないアーキテクチャは、デバイス上で実行可能なトレーニングを可能にするが、フェデレートされた設定に移行することで、体系的な課題がもたらされる。
我々は,多目的アライメントのためのフェデレートGRPOフレームワークであるFedMOAを提案する。
論文 参考訳(メタデータ) (2026-01-31T02:00:17Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。