論文の概要: On the Client Preference of LLM Fine-tuning in Federated Learning
- arxiv url: http://arxiv.org/abs/2407.03038v1
- Date: Wed, 3 Jul 2024 12:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:26:01.203806
- Title: On the Client Preference of LLM Fine-tuning in Federated Learning
- Title(参考訳): フェデレーション学習におけるLLMファインチューニングのクライアント選好について
- Authors: Feijie Wu, Xiaoze Liu, Haoyu Wang, Xingchen Wang, Jing Gao,
- Abstract要約: 人間のフィードバックによる強化学習(RLHF)は、好みのデータセットを用いて事前訓練された大規模言語モデル(LLM)を微調整する。
提案するFedBisを用いて、クライアントが好みのデータセットでバイナリセレクタを協調的にトレーニングする実行可能なフレームワークを提案する。
我々はまた、クライアントを好みに応じてバランスの取れたクラスタに整理し、複数のセレクタを訓練する新しいアルゴリズムであるFedBiscuitを提案する。
- 参考スコア(独自算出の注目度): 11.354376564685131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with human feedback (RLHF) fine-tunes a pretrained large language model (LLM) using preference datasets, enabling the LLM to generate outputs that align with human preferences. Given the sensitive nature of these preference datasets held by various clients, there is a need to implement RLHF within a federated learning (FL) framework, where clients are reluctant to share their data due to privacy concerns. To address this, we introduce a feasible framework in which clients collaboratively train a binary selector with their preference datasets using our proposed FedBis. With a well-trained selector, we can further enhance the LLM that generates human-preferred completions. Meanwhile, we propose a novel algorithm, FedBiscuit, that trains multiple selectors by organizing clients into balanced and disjoint clusters based on their preferences. Compared to the FedBis, FedBiscuit demonstrates superior performance in simulating human preferences for pairwise completions. Our extensive experiments on federated human preference datasets -- marking the first benchmark to address heterogeneous data partitioning among clients -- demonstrate that FedBiscuit outperforms FedBis and even surpasses traditional centralized training.
- Abstract(参考訳): 人間のフィードバックによる強化学習(RLHF)は、嗜好データセットを使用して事前訓練された大規模言語モデル(LLM)を微調整し、LLMは人間の嗜好と整合した出力を生成する。
さまざまなクライアントが保持するこれらの選好データセットの繊細な性質を考えると、クライアントがプライバシ上の懸念からデータを共有できないような、フェデレートラーニング(FL)フレームワークにRLHFを実装する必要がある。
これを解決するために,提案したFedBisを用いて,クライアントが好みのデータセットでバイナリセレクタを協調的にトレーニングする,実現可能なフレームワークを提案する。
十分に訓練されたセレクタにより、人間に好まれる完了を生成するLCMをさらに強化することができる。
一方,FedBiscuitという新しいアルゴリズムでは,クライアントを選好に基づいてバランスの取れたクラスタに整理し,複数のセレクタを訓練する。
FedBiscuitはFedBiscuitと比較して、ペアの完了に対する人間の好みをシミュレートする上で優れたパフォーマンスを示している。
FedBiscuitがFedBisより優れており、従来の集中型トレーニングを超えていることを実証しています。
関連論文リスト
- FedReMa: Improving Personalized Federated Learning via Leveraging the Most Relevant Clients [13.98392319567057]
Federated Learning (FL) は分散機械学習のパラダイムであり、分散計算と周期モデル合成によってグローバルに堅牢なモデルを実現する。
広く採用されているにもかかわらず、既存のFLとPFLの作業は、クラス不均衡の問題に包括的に対処していない。
本稿では,適応型クライアント間コラーニング手法を用いて,クラス不均衡に対処できる効率的なPFLアルゴリズムであるFedReMaを提案する。
論文 参考訳(メタデータ) (2024-11-04T05:44:28Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - FedSelect: Personalized Federated Learning with Customized Selection of Parameters for Fine-Tuning [9.22574528776347]
FedSelect は Lottery Ticket 仮説に使用される反復的なサブネットワーク発見手順にインスパイアされた新しい PFL アルゴリズムである。
我々は、FedSelectがクライアントデータの不均一性設定に挑戦して、最近の最先端のPFLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2024-04-03T05:36:21Z) - FedClust: Optimizing Federated Learning on Non-IID Data through
Weight-Driven Client Clustering [28.057411252785176]
Federated Learning(FL)は、分散型デバイス上で、ローカルデータを公開せずにコラボレーティブなモデルトレーニングを可能にする、新興の分散機械学習パラダイムである。
本稿では,局所モデル重みとクライアントデータ分布の相関を利用した新しいCFL手法であるFedClustを提案する。
論文 参考訳(メタデータ) (2024-03-07T01:50:36Z) - Personalized Federated Learning with Attention-based Client Selection [57.71009302168411]
我々は,意図に基づくクライアント選択機構を備えた新しいPFLアルゴリズムであるFedACSを提案する。
FedACSは、類似したデータ分散を持つクライアント間のコラボレーションを強化するためのアテンションメカニズムを統合している。
CIFAR10とFMNISTの実験は、FedACSの優位性を検証する。
論文 参考訳(メタデータ) (2023-12-23T03:31:46Z) - FedJETs: Efficient Just-In-Time Personalization with Federated Mixture
of Experts [48.78037006856208]
FedJETsは、Federated Learning(FL)セットアップ内でMixture-of-Experts(MoE)フレームワークを使用することで、新しいソリューションである。
我々の方法は、クライアントの多様性を活用して、クラスのサブセットの異なる専門家を訓練し、最も関係のある専門家に入力をルーティングするゲーティング機能を提供します。
我々の手法は、競争力のあるゼロショット性能を維持しながら、アートFL設定時の精度を最大18%向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T15:47:52Z) - FedABC: Targeting Fair Competition in Personalized Federated Learning [76.9646903596757]
フェデレートラーニングは、クライアントのローカルプライベートデータにアクセスすることなく、モデルを協調的にトレーニングすることを目的としている。
我々はFedABCと呼ばれるバイナリ分類によるFederated Averagingと呼ばれる新規で汎用的なPFLフレームワークを提案する。
特に、各クライアントに1対1のトレーニング戦略を採用して、クラス間の不公平な競争を軽減する。
論文 参考訳(メタデータ) (2023-02-15T03:42:59Z) - Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated
Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。
我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。
特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文 参考訳(メタデータ) (2022-09-30T05:42:56Z) - FLIS: Clustered Federated Learning via Inference Similarity for Non-IID
Data Distribution [7.924081556869144]
本稿では,クライアント集団をクラスタにグループ化し,共同でトレーニング可能なデータ配信を行う新しいアルゴリズムFLISを提案する。
CIFAR-100/10, SVHN, FMNISTデータセット上の最先端ベンチマークに対するFLISの利点を示す実験結果を示す。
論文 参考訳(メタデータ) (2022-08-20T22:10:48Z) - On the Convergence of Clustered Federated Learning [57.934295064030636]
統合学習システムでは、例えばモバイルデバイスや組織参加者といったクライアントは通常、個人の好みや行動パターンが異なる。
本稿では,クライアントグループと各クライアントを統一最適化フレームワークで活用する,新しい重み付きクライアントベースクラスタリングFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-13T02:39:19Z) - FedGroup: Efficient Clustered Federated Learning via Decomposed
Data-Driven Measure [18.083188787905083]
本稿では,新しいクラスタ型フェデレーション学習(CFL)フレームワークであるFedGroupを提案する。
FEMNISTではFedAvgに比べて絶対テスト精度が+14.1%向上することが示された。
また、いくつかのオープンデータセット上でFedGroupとFedGrouProx(FedProxと組み合わせた)を評価します。
論文 参考訳(メタデータ) (2020-10-14T08:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。