Fugu-MT 論文翻訳(概要): On the Client Preference of LLM Fine-tuning in Federated Learning

論文の概要: On the Client Preference of LLM Fine-tuning in Federated Learning

arxiv url: http://arxiv.org/abs/2407.03038v1
Date: Wed, 3 Jul 2024 12:02:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 14:26:01.203806
Title: On the Client Preference of LLM Fine-tuning in Federated Learning
Title（参考訳）: フェデレーション学習におけるLLMファインチューニングのクライアント選好について
Authors: Feijie Wu, Xiaoze Liu, Haoyu Wang, Xingchen Wang, Jing Gao,
Abstract要約: 人間のフィードバックによる強化学習(RLHF)は、好みのデータセットを用いて事前訓練された大規模言語モデル(LLM)を微調整する。提案するFedBisを用いて、クライアントが好みのデータセットでバイナリセレクタを協調的にトレーニングする実行可能なフレームワークを提案する。我々はまた、クライアントを好みに応じてバランスの取れたクラスタに整理し、複数のセレクタを訓練する新しいアルゴリズムであるFedBiscuitを提案する。
参考スコア（独自算出の注目度）: 11.354376564685131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning with human feedback (RLHF) fine-tunes a pretrained large language model (LLM) using preference datasets, enabling the LLM to generate outputs that align with human preferences. Given the sensitive nature of these preference datasets held by various clients, there is a need to implement RLHF within a federated learning (FL) framework, where clients are reluctant to share their data due to privacy concerns. To address this, we introduce a feasible framework in which clients collaboratively train a binary selector with their preference datasets using our proposed FedBis. With a well-trained selector, we can further enhance the LLM that generates human-preferred completions. Meanwhile, we propose a novel algorithm, FedBiscuit, that trains multiple selectors by organizing clients into balanced and disjoint clusters based on their preferences. Compared to the FedBis, FedBiscuit demonstrates superior performance in simulating human preferences for pairwise completions. Our extensive experiments on federated human preference datasets -- marking the first benchmark to address heterogeneous data partitioning among clients -- demonstrate that FedBiscuit outperforms FedBis and even surpasses traditional centralized training.
Abstract（参考訳）: 人間のフィードバックによる強化学習(RLHF)は、嗜好データセットを使用して事前訓練された大規模言語モデル(LLM)を微調整し、LLMは人間の嗜好と整合した出力を生成する。さまざまなクライアントが保持するこれらの選好データセットの繊細な性質を考えると、クライアントがプライバシ上の懸念からデータを共有できないような、フェデレートラーニング(FL)フレームワークにRLHFを実装する必要がある。これを解決するために,提案したFedBisを用いて,クライアントが好みのデータセットでバイナリセレクタを協調的にトレーニングする,実現可能なフレームワークを提案する。十分に訓練されたセレクタにより、人間に好まれる完了を生成するLCMをさらに強化することができる。一方,FedBiscuitという新しいアルゴリズムでは,クライアントを選好に基づいてバランスの取れたクラスタに整理し,複数のセレクタを訓練する。 FedBiscuitはFedBiscuitと比較して、ペアの完了に対する人間の好みをシミュレートする上で優れたパフォーマンスを示している。 FedBiscuitがFedBisより優れており、従来の集中型トレーニングを超えていることを実証しています。

関連論文リスト

Who Should I Listen To? Adaptive Collaboration in Personalized Federated Learning [6.427792270209119]
適応的なコラボレーションに基づくアプローチを提案する。クライアントは、他者への依存度だけでなく、誰が信頼するかを適応的に決定する。この原理を、クライアントが共有された未ラベルデータセット上で予測を交換するフェデレーション付き協調学習手法であるFEDMOSAICでインスタンス化する。本研究は、ロバストで効果的なパーソナライズのためのデータ認識コラボレーションの可能性を示すものである。
論文参考訳（メタデータ） (2025-06-30T20:53:01Z)
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文参考訳（メタデータ） (2025-01-08T11:37:06Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
FedReMa: Improving Personalized Federated Learning via Leveraging the Most Relevant Clients [13.98392319567057]
Federated Learning (FL) は分散機械学習のパラダイムであり、分散計算と周期モデル合成によってグローバルに堅牢なモデルを実現する。広く採用されているにもかかわらず、既存のFLとPFLの作業は、クラス不均衡の問題に包括的に対処していない。本稿では,適応型クライアント間コラーニング手法を用いて,クラス不均衡に対処できる効率的なPFLアルゴリズムであるFedReMaを提案する。
論文参考訳（メタデータ） (2024-11-04T05:44:28Z)
Co-clustering for Federated Recommender System [33.70723179405055]
Federated Recommender System(FRS)は、高品質なレコメンデーションの提供とユーザのプライバシの保護のバランスをとるソリューションを提供する。パーソナライズされた意思決定パターンによって一般的に観察されるFRSにおける統計的不均一性の存在は、課題を引き起こす可能性がある。本稿では,Co-clustering Federated RecommendationメカニズムであるCoFedRecを提案する。
論文参考訳（メタデータ） (2024-11-03T21:32:07Z)
PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文参考訳（メタデータ） (2024-09-30T13:55:42Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
FedSelect: Personalized Federated Learning with Customized Selection of Parameters for Fine-Tuning [9.22574528776347]
FedSelect は Lottery Ticket 仮説に使用される反復的なサブネットワーク発見手順にインスパイアされた新しい PFL アルゴリズムである。我々は、FedSelectがクライアントデータの不均一性設定に挑戦して、最近の最先端のPFLアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2024-04-03T05:36:21Z)
FedClust: Optimizing Federated Learning on Non-IID Data through Weight-Driven Client Clustering [28.057411252785176]
Federated Learning(FL)は、分散型デバイス上で、ローカルデータを公開せずにコラボレーティブなモデルトレーニングを可能にする、新興の分散機械学習パラダイムである。本稿では,局所モデル重みとクライアントデータ分布の相関を利用した新しいCFL手法であるFedClustを提案する。
論文参考訳（メタデータ） (2024-03-07T01:50:36Z)
Personalized Federated Learning with Attention-based Client Selection [57.71009302168411]
我々は,意図に基づくクライアント選択機構を備えた新しいPFLアルゴリズムであるFedACSを提案する。 FedACSは、類似したデータ分散を持つクライアント間のコラボレーションを強化するためのアテンションメカニズムを統合している。 CIFAR10とFMNISTの実験は、FedACSの優位性を検証する。
論文参考訳（メタデータ） (2023-12-23T03:31:46Z)
FedRec+: Enhancing Privacy and Addressing Heterogeneity in Federated Recommendation Systems [15.463595798992621]
FedRec+は、フェデレーションレコメンデーションシステムのためのアンサンブルフレームワークである。プライバシーを強化し、エッジユーザの通信コストを低減します。 FedRec+の最先端性能を示す実験結果が得られた。
論文参考訳（メタデータ） (2023-10-31T05:36:53Z)
FedJETs: Efficient Just-In-Time Personalization with Federated Mixture of Experts [48.78037006856208]
FedJETsは、Federated Learning(FL)セットアップ内でMixture-of-Experts(MoE)フレームワークを使用することで、新しいソリューションである。我々の方法は、クライアントの多様性を活用して、クラスのサブセットの異なる専門家を訓練し、最も関係のある専門家に入力をルーティングするゲーティング機能を提供します。我々の手法は、競争力のあるゼロショット性能を維持しながら、アートFL設定時の精度を最大18%向上させることができる。
論文参考訳（メタデータ） (2023-06-14T15:47:52Z)
FedABC: Targeting Fair Competition in Personalized Federated Learning [76.9646903596757]
フェデレートラーニングは、クライアントのローカルプライベートデータにアクセスすることなく、モデルを協調的にトレーニングすることを目的としている。我々はFedABCと呼ばれるバイナリ分類によるFederated Averagingと呼ばれる新規で汎用的なPFLフレームワークを提案する。特に、各クライアントに1対1のトレーニング戦略を採用して、クラス間の不公平な競争を軽減する。
論文参考訳（メタデータ） (2023-02-15T03:42:59Z)
Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文参考訳（メタデータ） (2022-09-30T05:42:56Z)
FLIS: Clustered Federated Learning via Inference Similarity for Non-IID Data Distribution [7.924081556869144]
本稿では,クライアント集団をクラスタにグループ化し,共同でトレーニング可能なデータ配信を行う新しいアルゴリズムFLISを提案する。 CIFAR-100/10, SVHN, FMNISTデータセット上の最先端ベンチマークに対するFLISの利点を示す実験結果を示す。
論文参考訳（メタデータ） (2022-08-20T22:10:48Z)
FedSPLIT: One-Shot Federated Recommendation System Based on Non-negative Joint Matrix Factorization and Knowledge Distillation [7.621960305708476]
我々はNMF結合因子化に基づく最初の教師なしワンショットフェデレーションCF実装であるFedSPLITを提案する。 FedSPLITは、コミュニケーションの数を大幅に減らすことで、技術の現状と類似した結果を得ることができる(特定の状況では、それよりも優れている)。
論文参考訳（メタデータ） (2022-05-04T23:42:14Z)
FedCL: Federated Contrastive Learning for Privacy-Preserving Recommendation [98.5705258907774]
FedCLは、プライバシーを十分に保護した効果的なモデルトレーニングのために、高品質な負のサンプルを利用することができる。まず、各クライアントのローカルモデルを介してローカルユーザデータからユーザ埋め込みを推測し、その後、ローカルディファレンシャルプライバシ(LDP)で摂動する。個々のユーザ埋め込みにはLDPによる重騒音が伴うため,ノイズの影響を軽減するため,サーバ上にユーザ埋め込みをクラスタ化することを提案する。
論文参考訳（メタデータ） (2022-04-21T02:37:10Z)
On the Convergence of Clustered Federated Learning [57.934295064030636]
統合学習システムでは、例えばモバイルデバイスや組織参加者といったクライアントは通常、個人の好みや行動パターンが異なる。本稿では,クライアントグループと各クライアントを統一最適化フレームワークで活用する,新しい重み付きクライアントベースクラスタリングFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-13T02:39:19Z)
FedGroup: Efficient Clustered Federated Learning via Decomposed Data-Driven Measure [18.083188787905083]
本稿では,新しいクラスタ型フェデレーション学習(CFL)フレームワークであるFedGroupを提案する。 FEMNISTではFedAvgに比べて絶対テスト精度が+14.1%向上することが示された。また、いくつかのオープンデータセット上でFedGroupとFedGrouProx(FedProxと組み合わせた)を評価します。
論文参考訳（メタデータ） (2020-10-14T08:15:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。