論文の概要: On the Client Preference of LLM Fine-tuning in Federated Learning
- arxiv url: http://arxiv.org/abs/2407.03038v1
- Date: Wed, 3 Jul 2024 12:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:26:01.203806
- Title: On the Client Preference of LLM Fine-tuning in Federated Learning
- Title(参考訳): フェデレーション学習におけるLLMファインチューニングのクライアント選好について
- Authors: Feijie Wu, Xiaoze Liu, Haoyu Wang, Xingchen Wang, Jing Gao,
- Abstract要約: 人間のフィードバックによる強化学習(RLHF)は、好みのデータセットを用いて事前訓練された大規模言語モデル(LLM)を微調整する。
提案するFedBisを用いて、クライアントが好みのデータセットでバイナリセレクタを協調的にトレーニングする実行可能なフレームワークを提案する。
我々はまた、クライアントを好みに応じてバランスの取れたクラスタに整理し、複数のセレクタを訓練する新しいアルゴリズムであるFedBiscuitを提案する。
- 参考スコア(独自算出の注目度): 11.354376564685131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with human feedback (RLHF) fine-tunes a pretrained large language model (LLM) using preference datasets, enabling the LLM to generate outputs that align with human preferences. Given the sensitive nature of these preference datasets held by various clients, there is a need to implement RLHF within a federated learning (FL) framework, where clients are reluctant to share their data due to privacy concerns. To address this, we introduce a feasible framework in which clients collaboratively train a binary selector with their preference datasets using our proposed FedBis. With a well-trained selector, we can further enhance the LLM that generates human-preferred completions. Meanwhile, we propose a novel algorithm, FedBiscuit, that trains multiple selectors by organizing clients into balanced and disjoint clusters based on their preferences. Compared to the FedBis, FedBiscuit demonstrates superior performance in simulating human preferences for pairwise completions. Our extensive experiments on federated human preference datasets -- marking the first benchmark to address heterogeneous data partitioning among clients -- demonstrate that FedBiscuit outperforms FedBis and even surpasses traditional centralized training.
- Abstract(参考訳): 人間のフィードバックによる強化学習(RLHF)は、嗜好データセットを使用して事前訓練された大規模言語モデル(LLM)を微調整し、LLMは人間の嗜好と整合した出力を生成する。
さまざまなクライアントが保持するこれらの選好データセットの繊細な性質を考えると、クライアントがプライバシ上の懸念からデータを共有できないような、フェデレートラーニング(FL)フレームワークにRLHFを実装する必要がある。
これを解決するために,提案したFedBisを用いて,クライアントが好みのデータセットでバイナリセレクタを協調的にトレーニングする,実現可能なフレームワークを提案する。
十分に訓練されたセレクタにより、人間に好まれる完了を生成するLCMをさらに強化することができる。
一方,FedBiscuitという新しいアルゴリズムでは,クライアントを選好に基づいてバランスの取れたクラスタに整理し,複数のセレクタを訓練する。
FedBiscuitはFedBiscuitと比較して、ペアの完了に対する人間の好みをシミュレートする上で優れたパフォーマンスを示している。
FedBiscuitがFedBisより優れており、従来の集中型トレーニングを超えていることを実証しています。
関連論文リスト
- Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Co-clustering for Federated Recommender System [33.70723179405055]
Federated Recommender System(FRS)は、高品質なレコメンデーションの提供とユーザのプライバシの保護のバランスをとるソリューションを提供する。
パーソナライズされた意思決定パターンによって一般的に観察されるFRSにおける統計的不均一性の存在は、課題を引き起こす可能性がある。
本稿では,Co-clustering Federated RecommendationメカニズムであるCoFedRecを提案する。
論文 参考訳(メタデータ) (2024-11-03T21:32:07Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - FedRec+: Enhancing Privacy and Addressing Heterogeneity in Federated
Recommendation Systems [15.463595798992621]
FedRec+は、フェデレーションレコメンデーションシステムのためのアンサンブルフレームワークである。
プライバシーを強化し、エッジユーザの通信コストを低減します。
FedRec+の最先端性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-10-31T05:36:53Z) - Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated
Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。
我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。
特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文 参考訳(メタデータ) (2022-09-30T05:42:56Z) - FedSPLIT: One-Shot Federated Recommendation System Based on Non-negative
Joint Matrix Factorization and Knowledge Distillation [7.621960305708476]
我々はNMF結合因子化に基づく最初の教師なしワンショットフェデレーションCF実装であるFedSPLITを提案する。
FedSPLITは、コミュニケーションの数を大幅に減らすことで、技術の現状と類似した結果を得ることができる(特定の状況では、それよりも優れている)。
論文 参考訳(メタデータ) (2022-05-04T23:42:14Z) - FedCL: Federated Contrastive Learning for Privacy-Preserving
Recommendation [98.5705258907774]
FedCLは、プライバシーを十分に保護した効果的なモデルトレーニングのために、高品質な負のサンプルを利用することができる。
まず、各クライアントのローカルモデルを介してローカルユーザデータからユーザ埋め込みを推測し、その後、ローカルディファレンシャルプライバシ(LDP)で摂動する。
個々のユーザ埋め込みにはLDPによる重騒音が伴うため,ノイズの影響を軽減するため,サーバ上にユーザ埋め込みをクラスタ化することを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:37:10Z) - On the Convergence of Clustered Federated Learning [57.934295064030636]
統合学習システムでは、例えばモバイルデバイスや組織参加者といったクライアントは通常、個人の好みや行動パターンが異なる。
本稿では,クライアントグループと各クライアントを統一最適化フレームワークで活用する,新しい重み付きクライアントベースクラスタリングFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-13T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。