論文の概要: FedMOA: Federated GRPO for Personalized Reasoning LLMs under Heterogeneous Rewards
- arxiv url: http://arxiv.org/abs/2602.00453v1
- Date: Sat, 31 Jan 2026 02:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.192767
- Title: FedMOA: Federated GRPO for Personalized Reasoning LLMs under Heterogeneous Rewards
- Title(参考訳): FedMOA:不均一なリワード下でのパーソナライズされたLLMのためのGRPO
- Authors: Ziyao Wang, Daeun Jung, Yexiao He, Guoheng Sun, Zheyu Shen, Myungjin Lee, Ang Li,
- Abstract要約: GRPOの批判のないアーキテクチャは、デバイス上で実行可能なトレーニングを可能にするが、フェデレートされた設定に移行することで、体系的な課題がもたらされる。
我々は,多目的アライメントのためのフェデレートGRPOフレームワークであるFedMOAを提案する。
- 参考スコア(独自算出の注目度): 16.516565435444445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) has recently emerged as an effective approach for improving the reasoning capabilities of large language models through online multi-objective reinforcement learning. While personalization on private data is increasingly vital, traditional Reinforcement Learning (RL) alignment is often memory-prohibitive for on-device federated learning due to the overhead of maintaining a separate critic network. GRPO's critic-free architecture enables feasible on-device training, yet transitioning to a federated setting introduces systemic challenges: heterogeneous reward definitions, imbalanced multi-objective optimization, and high training costs. We propose FedMOA, a federated GRPO framework for multi-objective alignment under heterogeneous rewards. FedMOA stabilizes local training through an online adaptive weighting mechanism via hypergradient descent, which prioritizes primary reasoning as auxiliary objectives saturate. On the server side, it utilizes a task- and accuracy-aware aggregation strategy to prioritize high-quality updates. Experiments on mathematical reasoning and code generation benchmarks demonstrate that FedMOA consistently outperforms federated averaging, achieving accuracy gains of up to 2.2% while improving global performance, personalization, and multi-objective balance.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、オンライン多目的強化学習を通じて、大規模言語モデルの推論能力を改善する効果的なアプローチとして最近登場した。
プライベートデータのパーソナライゼーションはますます重要になっているが、従来の強化学習(RL)アライメントは、独立した批判ネットワークを維持するオーバーヘッドのため、デバイス上でのフェデレーション学習にメモリ制限を与えることが多い。
GRPOの批判のないアーキテクチャは、デバイス上で実現可能なトレーニングを可能にするが、フェデレートされた設定に移行することで、不均一な報酬定義、不均衡な多目的最適化、高いトレーニングコストといった、体系的な課題がもたらされる。
我々は,多目的アライメントのためのフェデレートGRPOフレームワークであるFedMOAを提案する。
FedMOAは、過次降下によるオンライン適応重み付け機構を通じて局所訓練を安定化させ、補助目標の飽和として一次推論を優先する。
サーバ側では、タスク対応と精度対応のアグリゲーション戦略を使用して、高品質な更新を優先順位付けする。
数学的推論とコード生成ベンチマークの実験は、FedMOAがフェデレーション平均よりも一貫して優れており、グローバルパフォーマンス、パーソナライゼーション、多目的バランスを改善しながら、最大2.2%の精度向上を実現していることを示している。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。