論文の概要: FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHF
- arxiv url: http://arxiv.org/abs/2412.15538v2
- Date: Sat, 08 Feb 2025 02:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:33.964043
- Title: FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHF
- Title(参考訳): FedRLHF: プライバシ保護とパーソナライズのための収束保証フェデレーションフレームワーク
- Authors: Flint Xiaofeng Fan, Cheston Tan, Yew-Soon Ong, Roger Wattenhofer, Wei-Tsang Ooi,
- Abstract要約: Federated Reinforcement Learning with Human Feedback (FedRLHF)は、ヒューマンフィードバックプロセスによる強化学習を分散化する新しいフレームワークである。
FedRLHFは、生データや人的フィードバックの共有を必要とせずに、複数のクライアント間で協調的なポリシー学習を可能にする。
- 参考スコア(独自算出の注目度): 46.617268518880536
- License:
- Abstract: In the era of increasing privacy concerns and demand for personalized experiences, traditional Reinforcement Learning with Human Feedback (RLHF) frameworks face significant challenges due to their reliance on centralized data. We introduce Federated Reinforcement Learning with Human Feedback (FedRLHF), a novel framework that decentralizes the RLHF process. FedRLHF enables collaborative policy learning across multiple clients without necessitating the sharing of raw data or human feedback, thereby ensuring robust privacy preservation. Leveraging federated reinforcement learning, each client integrates human feedback locally into their reward functions and updates their policies through personalized RLHF processes. We establish rigorous theoretical foundations for FedRLHF, providing convergence guarantees, and deriving sample complexity bounds that scale efficiently with the number of clients. Empirical evaluations on the MovieLens and IMDb datasets demonstrate that FedRLHF not only preserves user privacy but also achieves performance on par with centralized RLHF, while enhancing personalization across diverse client environments.
- Abstract(参考訳): プライバシの懸念とパーソナライズされたエクスペリエンスの需要が増大する中で、従来のRLHF(Reinforcement Learning with Human Feedback)フレームワークは、集中的なデータに依存しているため、重大な課題に直面している。
本稿では,RLHFプロセスを分散化する新しいフレームワークであるFederated Reinforcement Learning with Human Feedback (FedRLHF)を紹介する。
FedRLHFは、生データや人的フィードバックの共有を必要とせずに、複数のクライアント間で協調的なポリシー学習を可能にするため、堅牢なプライバシ保護が保証される。
連合強化学習を活用することで、各クライアントは報酬関数に人的フィードバックをローカルに統合し、パーソナライズされたRLHFプロセスを通じてポリシーを更新する。
我々は、FedRLHFの厳密な理論基盤を確立し、収束保証を提供し、クライアント数に応じて効率的にスケールするサンプル複雑性境界を導出する。
MovieLensとIMDbデータセットの実証評価では、FedRLHFはユーザのプライバシを保存するだけでなく、集中型RLHFと同等のパフォーマンスを実現し、多様なクライアント環境におけるパーソナライズを強化している。
関連論文リスト
- Efficient and Robust Regularized Federated Recommendation [52.24782464815489]
推薦システム(RSRS)は、ユーザの好みとプライバシの両方に対処する。
通信効率を向上させるために,非一様勾配勾配勾配を取り入れた新しい手法を提案する。
RFRecFの強靭性は、多様なベースラインに比べて優れている。
論文 参考訳(メタデータ) (2024-11-03T12:10:20Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - Personalized Federated Learning with Attention-based Client Selection [57.71009302168411]
我々は,意図に基づくクライアント選択機構を備えた新しいPFLアルゴリズムであるFedACSを提案する。
FedACSは、類似したデータ分散を持つクライアント間のコラボレーションを強化するためのアテンションメカニズムを統合している。
CIFAR10とFMNISTの実験は、FedACSの優位性を検証する。
論文 参考訳(メタデータ) (2023-12-23T03:31:46Z) - Active Membership Inference Attack under Local Differential Privacy in
Federated Learning [18.017082794703555]
フェデレートラーニング(FL)は元々、データプライバシ保護を備えたクライアント間での協調学習のフレームワークとして見なされていた。
本稿では,FLにおける不適切なサーバによって実行される新たなアクティブメンバシップ推論(AMI)攻撃を提案する。
論文 参考訳(メタデータ) (2023-02-24T15:21:39Z) - PGFed: Personalize Each Client's Global Objective for Federated Learning [7.810284483002312]
本稿では,各クライアントが自身のグローバルな目的をパーソナライズ可能な,パーソナライズされたFLフレームワークを提案する。
大規模な(O(N2))通信オーバーヘッドと潜在的なプライバシリークを回避するため、各クライアントのリスクは、他のクライアントの適応的リスクアグリゲーションの1次近似によって推定される。
異なるフェデレーション条件下での4つのデータセットに対する実験により,従来の最先端手法よりも一貫したPGFの改良が示された。
論文 参考訳(メタデータ) (2022-12-02T21:16:39Z) - FedFM: Anchor-based Feature Matching for Data Heterogeneity in Federated
Learning [91.74206675452888]
本稿では,各クライアントの特徴を共有カテゴリーのアンカーにマッチさせる新しいFedFM法を提案する。
効率と柔軟性を向上させるため,FedFM-Liteと呼ばれるFedFM変種を提案し,クライアントは同期時間と通信帯域幅のコストを少なくしてサーバと通信する。
論文 参考訳(メタデータ) (2022-10-14T08:11:34Z) - DeFed: A Principled Decentralized and Privacy-Preserving Federated
Learning Algorithm [10.487593244018933]
フェデレートラーニングは、多数のクライアントが、各クライアントに格納されたトレーニングデータを維持しながら、共有モデル学習に参加することを可能にする。
本稿では、従来のフェデレーション平均化(FedAvg)設定における中心的クライアントを除去する、分散型分散学習アルゴリズム(DeFed)を提案する。
提案アルゴリズムは, 損失関数が滑らかで, 強凸である場合には, 収束率$O(1/T)$で大域的最小値に達することが証明された。
論文 参考訳(メタデータ) (2021-07-15T07:39:19Z) - Understanding Clipping for Federated Learning: Convergence and
Client-Level Differential Privacy [67.4471689755097]
本稿では, 切断したFedAvgが, 実質的なデータ均一性でも驚くほど良好に動作できることを実証的に示す。
本稿では,差分プライベート(DP)FedAvgアルゴリズムの収束解析を行い,クリッピングバイアスとクライアント更新の分布との関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-25T14:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。