Fugu-MT 論文翻訳(概要): Towards Federated RLHF with Aggregated Client Preference for LLMs

論文の概要: Towards Federated RLHF with Aggregated Client Preference for LLMs

arxiv url: http://arxiv.org/abs/2407.03038v2
Date: Mon, 27 Jan 2025 20:14:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:10.839669
Title: Towards Federated RLHF with Aggregated Client Preference for LLMs
Title（参考訳）: LLMの集約クライアント選好によるRLHFのフェデレーションに向けて
Authors: Feijie Wu, Xiaoze Liu, Haoyu Wang, Xingchen Wang, Lu Su, Jing Gao,
Abstract要約: 人間のフィードバックによる強化学習(RLHF)は、ユーザの好みデータを用いた事前訓練された大規模言語モデル(LLM)を微調整する。プライバシー上の懸念から、ユーザーは機密性の高い好みデータを共有するのを嫌がるかもしれない。我々は,様々な現実世界のユーザから大規模な嗜好収集を可能にする,フェデレートラーニング(FL)技術を活用することを提案する。
参考スコア（独自算出の注目度）: 16.97734775088073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning with human feedback (RLHF) fine-tunes a pretrained large language model (LLM) using user preference data, enabling it to generate content aligned with human preferences. However, due to privacy concerns, users may be reluctant to share sensitive preference data. To address this, we propose utilizing Federated Learning (FL) techniques, allowing large-scale preference collection from diverse real-world users without requiring them to transmit data to a central server. Our federated RLHF methods (i.e., FedBis and FedBiscuit) encode each client's preferences into binary selectors and aggregate them to capture common preferences. In particular, FedBiscuit overcomes key challenges, such as preference heterogeneity and reward hacking, through innovative solutions like grouping clients with similar preferences to reduce heterogeneity and using multiple binary selectors to enhance LLM output quality. To evaluate the performance of the proposed methods, we establish the first federated RLHF benchmark with a heterogeneous human preference dataset. Experimental results show that by integrating the LLM with aggregated client preferences, FedBis and FedBiscuit significantly enhance the professionalism and readability of the generated content.
Abstract（参考訳）: 人間のフィードバックによる強化学習(RLHF)は、ユーザの嗜好データを用いて事前訓練された大規模言語モデル(LLM)を微調整し、人間の嗜好に沿ったコンテンツを生成する。しかし、プライバシー上の懸念から、ユーザーは機密性の高い好みデータを共有することに消極的かもしれない。そこで本研究では,Federated Learning (FL) 技術を利用することで,さまざまな現実世界のユーザからの大規模な選好収集を,中央サーバにデータを送信することなく実現することを提案する。当社のフェデレートされたRLHFメソッド(FedBisとFedBiscuit)は、各クライアントの好みをバイナリセレクタにエンコードし、それらを集約して共通の好みをキャプチャします。特に、FedBiscuitは、好みの不均一性や報酬のハッキングといった重要な課題を克服し、類似した好みを持つクライアントをグループ化して不均一性を低減し、複数のバイナリセレクタを使用してLCM出力品質を向上させるという革新的なソリューションを通じて解決している。提案手法の性能を評価するため,不均一な人選好データセットを用いた最初のフェデレーションRLHFベンチマークを構築した。実験結果から,LLMを集約されたクライアント嗜好と統合することにより,FedBisとFedBiscuitは生成したコンテンツのプロフェッショナル性と可読性を著しく向上することがわかった。

関連論文リスト

Who Should I Listen To? Adaptive Collaboration in Personalized Federated Learning [6.427792270209119]
適応的なコラボレーションに基づくアプローチを提案する。クライアントは、他者への依存度だけでなく、誰が信頼するかを適応的に決定する。この原理を、クライアントが共有された未ラベルデータセット上で予測を交換するフェデレーション付き協調学習手法であるFEDMOSAICでインスタンス化する。本研究は、ロバストで効果的なパーソナライズのためのデータ認識コラボレーションの可能性を示すものである。
論文参考訳（メタデータ） (2025-06-30T20:53:01Z)
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文参考訳（メタデータ） (2025-01-08T11:37:06Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
FedReMa: Improving Personalized Federated Learning via Leveraging the Most Relevant Clients [13.98392319567057]
Federated Learning (FL) は分散機械学習のパラダイムであり、分散計算と周期モデル合成によってグローバルに堅牢なモデルを実現する。広く採用されているにもかかわらず、既存のFLとPFLの作業は、クラス不均衡の問題に包括的に対処していない。本稿では,適応型クライアント間コラーニング手法を用いて,クラス不均衡に対処できる効率的なPFLアルゴリズムであるFedReMaを提案する。
論文参考訳（メタデータ） (2024-11-04T05:44:28Z)
Co-clustering for Federated Recommender System [33.70723179405055]
Federated Recommender System(FRS)は、高品質なレコメンデーションの提供とユーザのプライバシの保護のバランスをとるソリューションを提供する。パーソナライズされた意思決定パターンによって一般的に観察されるFRSにおける統計的不均一性の存在は、課題を引き起こす可能性がある。本稿では,Co-clustering Federated RecommendationメカニズムであるCoFedRecを提案する。
論文参考訳（メタデータ） (2024-11-03T21:32:07Z)
PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文参考訳（メタデータ） (2024-09-30T13:55:42Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
FedSelect: Personalized Federated Learning with Customized Selection of Parameters for Fine-Tuning [9.22574528776347]
FedSelect は Lottery Ticket 仮説に使用される反復的なサブネットワーク発見手順にインスパイアされた新しい PFL アルゴリズムである。我々は、FedSelectがクライアントデータの不均一性設定に挑戦して、最近の最先端のPFLアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2024-04-03T05:36:21Z)
FedClust: Optimizing Federated Learning on Non-IID Data through Weight-Driven Client Clustering [28.057411252785176]
Federated Learning(FL)は、分散型デバイス上で、ローカルデータを公開せずにコラボレーティブなモデルトレーニングを可能にする、新興の分散機械学習パラダイムである。本稿では,局所モデル重みとクライアントデータ分布の相関を利用した新しいCFL手法であるFedClustを提案する。
論文参考訳（メタデータ） (2024-03-07T01:50:36Z)
Personalized Federated Learning with Attention-based Client Selection [57.71009302168411]
我々は,意図に基づくクライアント選択機構を備えた新しいPFLアルゴリズムであるFedACSを提案する。 FedACSは、類似したデータ分散を持つクライアント間のコラボレーションを強化するためのアテンションメカニズムを統合している。 CIFAR10とFMNISTの実験は、FedACSの優位性を検証する。
論文参考訳（メタデータ） (2023-12-23T03:31:46Z)
FedRec+: Enhancing Privacy and Addressing Heterogeneity in Federated Recommendation Systems [15.463595798992621]
FedRec+は、フェデレーションレコメンデーションシステムのためのアンサンブルフレームワークである。プライバシーを強化し、エッジユーザの通信コストを低減します。 FedRec+の最先端性能を示す実験結果が得られた。
論文参考訳（メタデータ） (2023-10-31T05:36:53Z)
FedJETs: Efficient Just-In-Time Personalization with Federated Mixture of Experts [48.78037006856208]
FedJETsは、Federated Learning(FL)セットアップ内でMixture-of-Experts(MoE)フレームワークを使用することで、新しいソリューションである。我々の方法は、クライアントの多様性を活用して、クラスのサブセットの異なる専門家を訓練し、最も関係のある専門家に入力をルーティングするゲーティング機能を提供します。我々の手法は、競争力のあるゼロショット性能を維持しながら、アートFL設定時の精度を最大18%向上させることができる。
論文参考訳（メタデータ） (2023-06-14T15:47:52Z)
FedABC: Targeting Fair Competition in Personalized Federated Learning [76.9646903596757]
フェデレートラーニングは、クライアントのローカルプライベートデータにアクセスすることなく、モデルを協調的にトレーニングすることを目的としている。我々はFedABCと呼ばれるバイナリ分類によるFederated Averagingと呼ばれる新規で汎用的なPFLフレームワークを提案する。特に、各クライアントに1対1のトレーニング戦略を採用して、クラス間の不公平な競争を軽減する。
論文参考訳（メタデータ） (2023-02-15T03:42:59Z)
Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文参考訳（メタデータ） (2022-09-30T05:42:56Z)
FLIS: Clustered Federated Learning via Inference Similarity for Non-IID Data Distribution [7.924081556869144]
本稿では,クライアント集団をクラスタにグループ化し,共同でトレーニング可能なデータ配信を行う新しいアルゴリズムFLISを提案する。 CIFAR-100/10, SVHN, FMNISTデータセット上の最先端ベンチマークに対するFLISの利点を示す実験結果を示す。
論文参考訳（メタデータ） (2022-08-20T22:10:48Z)
FedSPLIT: One-Shot Federated Recommendation System Based on Non-negative Joint Matrix Factorization and Knowledge Distillation [7.621960305708476]
我々はNMF結合因子化に基づく最初の教師なしワンショットフェデレーションCF実装であるFedSPLITを提案する。 FedSPLITは、コミュニケーションの数を大幅に減らすことで、技術の現状と類似した結果を得ることができる(特定の状況では、それよりも優れている)。
論文参考訳（メタデータ） (2022-05-04T23:42:14Z)
FedCL: Federated Contrastive Learning for Privacy-Preserving Recommendation [98.5705258907774]
FedCLは、プライバシーを十分に保護した効果的なモデルトレーニングのために、高品質な負のサンプルを利用することができる。まず、各クライアントのローカルモデルを介してローカルユーザデータからユーザ埋め込みを推測し、その後、ローカルディファレンシャルプライバシ(LDP)で摂動する。個々のユーザ埋め込みにはLDPによる重騒音が伴うため,ノイズの影響を軽減するため,サーバ上にユーザ埋め込みをクラスタ化することを提案する。
論文参考訳（メタデータ） (2022-04-21T02:37:10Z)
On the Convergence of Clustered Federated Learning [57.934295064030636]
統合学習システムでは、例えばモバイルデバイスや組織参加者といったクライアントは通常、個人の好みや行動パターンが異なる。本稿では,クライアントグループと各クライアントを統一最適化フレームワークで活用する,新しい重み付きクライアントベースクラスタリングFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-13T02:39:19Z)
FedGroup: Efficient Clustered Federated Learning via Decomposed Data-Driven Measure [18.083188787905083]
本稿では,新しいクラスタ型フェデレーション学習(CFL)フレームワークであるFedGroupを提案する。 FEMNISTではFedAvgに比べて絶対テスト精度が+14.1%向上することが示された。また、いくつかのオープンデータセット上でFedGroupとFedGrouProx(FedProxと組み合わせた)を評価します。
論文参考訳（メタデータ） (2020-10-14T08:15:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。