論文の概要: FedGRPO: Privately Optimizing Foundation Models with Group-Relative Rewards from Domain Client
- arxiv url: http://arxiv.org/abs/2602.12014v1
- Date: Thu, 12 Feb 2026 14:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.872934
- Title: FedGRPO: Privately Optimizing Foundation Models with Group-Relative Rewards from Domain Client
- Title(参考訳): FedGRPO: ドメインクライアントからのグループ関連リワードによるファンデーションモデルをプライベートに最適化する
- Authors: Gongxi Zhu, Hanlin Gu, Lixin Fan, Qiang Yang, Yuxing Han,
- Abstract要約: モデルレベルの知識伝達や表現レベルの知識伝達に基づく既存の手法は、高価なローカルトレーニングを必要とするか、高い通信コストを必要とする。
本稿では,この問題を強化学習スタイル評価プロセスとして再検討し,FedGRPOを提案する。
FedGRPOは従来のFedFMのベースラインよりも下流の精度と通信効率が優れている。
- 参考スコア(独自算出の注目度): 21.08829811371245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One important direction of Federated Foundation Models (FedFMs) is leveraging data from small client models to enhance the performance of a large server-side foundation model. Existing methods based on model level or representation level knowledge transfer either require expensive local training or incur high communication costs and introduce unavoidable privacy risks. We reformulate this problem as a reinforcement learning style evaluation process and propose FedGRPO, a privacy preserving framework comprising two modules. The first module performs competence-based expert selection by building a lightweight confidence graph from auxiliary data to identify the most suitable clients for each question. The second module leverages the "Group Relative" concept from the Group Relative Policy Optimization (GRPO) framework by packaging each question together with its solution rationale into candidate policies, dispatching these policies to a selected subset of expert clients, and aggregating solely the resulting scalar reward signals via a federated group-relative loss function. By exchanging reward values instead of data or model updates, FedGRPO reduces privacy risk and communication overhead while enabling parallel evaluation across heterogeneous devices. Empirical results on diverse domain tasks demonstrate that FedGRPO achieves superior downstream accuracy and communication efficiency compared to conventional FedFMs baselines.
- Abstract(参考訳): Federated Foundation Models(FedFMs)の重要な方向性の1つは、小さなクライアントモデルからのデータを活用して、大規模なサーバサイドのファンデーションモデルのパフォーマンスを向上させることである。
モデルレベルや表現レベルの知識伝達に基づく既存の手法は、高価なローカルトレーニングを必要とするか、高い通信コストを必要とするか、避けられないプライバシーリスクをもたらす。
本稿では、この問題を強化学習スタイル評価プロセスとして再検討し、2つのモジュールからなるプライバシ保護フレームワークであるFedGRPOを提案する。
第1モジュールは、補助データから軽量な信頼グラフを構築し、各質問に最も適したクライアントを特定することで、能力ベースの専門家選択を行う。
第2のモジュールは、グループ相対的ポリシー最適化(GRPO)フレームワークからの"グループ相対的"の概念を利用して、各質問をそのソリューションの合理性と共に候補ポリシーにパッケージ化し、これらのポリシーを専門家クライアントの選ばれたサブセットにディスパッチし、連合したグループ相対的損失関数を通じて結果のスカラー報酬信号のみを集約する。
データやモデル更新の代わりに報酬値を交換することで、FedGRPOは、異種デバイス間の並列評価を可能にしながら、プライバシのリスクと通信オーバーヘッドを低減する。
その結果,FedGRPOは従来のFedFMのベースラインに比べて,下流の精度と通信効率に優れていた。
関連論文リスト
- Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models [63.70401095689976]
パラメータを好みに置き換えることは、よりスケーラブルでプライバシに保護される未来を表している、と私たちは主張する。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを用いた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化、堅牢性、およびクロスクライアント適応性において、連邦化されたアライメントベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-31T03:11:51Z) - Towards Federated Clustering: A Client-wise Private Graph Aggregation Framework [57.04850867402913]
フェデレーションクラスタリングは、分散化されたラベルのないデータからパターンを抽出する課題に対処する。
本研究では,プライバシ保護のための知識共有媒体として,局所構造グラフを革新的に活用する新しいアルゴリズムSPP-FGCを提案する。
我々のフレームワークは最先端のパフォーマンスを実現し、認証可能なプライバシー保証を維持しつつ、フェデレーションベースラインよりも最大10%(NMI)のクラスタリング精度を向上させる。
論文 参考訳(メタデータ) (2025-11-14T03:05:22Z) - PQFed: A Privacy-Preserving Quality-Controlled Federated Learning Framework [3.279539373700685]
フェデレートラーニングは、生データを共有せずに協調的なモデルトレーニングを可能にする。
PQFedは、プライバシを保存するパーソナライズされたフェデレーション学習フレームワークである。
PQFedは、限られた数の参加者であっても、ターゲットクライアントのモデルパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-09-25T23:56:24Z) - Don't Reach for the Stars: Rethinking Topology for Resilient Federated Learning [1.3270838622986498]
フェデレートラーニング(FL)は、データをローカルに保つことでデータのプライバシを保護しながら、分散クライアント間で協調的なモデルトレーニングを可能にする。
従来のFLアプローチは、中央サーバがクライアントからモデル更新を集約する、集中型の星型トポロジーに依存しています。
本稿では,P2P (P2P) FLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T10:10:37Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Client-Centric Federated Adaptive Optimization [78.30827455292827]
Federated Learning(FL)は、クライアントが独自のデータをプライベートに保ちながら、協調的にモデルをトレーニングする分散学習パラダイムである。
本稿では,新しいフェデレーション最適化手法のクラスであるフェデレーション中心適応最適化を提案する。
論文 参考訳(メタデータ) (2025-01-17T04:00:50Z) - FedSpaLLM: Federated Pruning of Large Language Models [8.45879077052023]
大規模言語モデル(LLM)は最先端のパフォーマンスを実現するが、高い計算量とストレージ要求のためデプロイは困難である。
我々は,LLMの刈り取り専用に設計された最初のフェデレーション学習フレームワークであるFedSpaLLMを提案する。
論文 参考訳(メタデータ) (2024-10-18T20:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。