論文の概要: Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- arxiv url: http://arxiv.org/abs/2409.20135v2
- Date: Tue, 1 Oct 2024 05:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 19:42:09.212768
- Title: Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- Title(参考訳): ドメイン被覆強化によるLDMのフェデレーション・インストラクション・チューニング
- Authors: Zezhou Wang, Yaxin Du, Zhuzhong Qian, Siheng Chen,
- Abstract要約: Federated Domain-specific Instruction Tuning (FedDIT)は、サーバサイドの公開データとともに、限られたクロスクライアントなプライベートデータを使用して命令拡張を行う。
我々は,欲求のあるクライアントセンターの選択と検索に基づく拡張を通じて,ドメインカバレッジを最適化するFedDCAを提案する。
また,多量の公開データを用いたメモリ抽出攻撃に対するプライバシー保護についても検討した。
- 参考スコア(独自算出の注目度): 35.54111318340366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Domain-specific Instruction Tuning (FedDIT) utilizes limited cross-client private data alongside server-side public data for instruction augmentation, ultimately enhancing model performance within specific domains. While the factors affecting FedDIT remain unclear and existing instruction augmentation methods mainly focus on the centralized setting without considering the distributed environment. Our experiments reveal that the cross-client domain coverage, rather than data heterogeneity, drives model performance in FedDIT. In response, we propose FedDCA, which optimizes domain coverage through greedy client center selection and retrieval-based augmentation. To alleviate client-side computational burdens, FedDCA$^*$ uses heterogeneous encoders with server-side feature alignment. Extensive experiments across four distinct domains (code, medical, financial, and mathematical) substantiate the effectiveness of both methods. Additionally, we investigate privacy preservation against memory extraction attacks utilizing varying amounts of public data. Results show no significant correlation between the volume of public data and the privacy-preserving capability. However, as the fine-tuning round increases, the risk of privacy leakage reduces or converges.
- Abstract(参考訳): Federated Domain-specific Instruction Tuning (FedDIT)は、特定のドメイン内のモデルパフォーマンスを最終的に向上させるため、サーバサイドの公開データとともに、限られたクロスクライアントなプライベートデータを使用する。
FedDITに影響を与える要因は依然として不明であり、既存の命令拡張手法は主に分散環境を考慮せずに集中的な設定に焦点を当てている。
実験の結果,データ不均一性ではなく,クロスクライアントなドメインカバレッジがFedDITのモデル性能を駆動していることが判明した。
そこで本研究では,クライアントセンターの選択と検索に基づく拡張により,ドメインカバレッジを最適化するFedDCAを提案する。
クライアント側の計算負担を軽減するため、FedDCA$^*$はサーバ側の機能アライメントを備えた異種エンコーダを使用する。
4つの異なる領域(コード、医療、財務、数学)にわたる大規模な実験は、両方の方法の有効性を裏付けるものである。
さらに,多量の公開データを用いたメモリ抽出攻撃に対するプライバシー保護について検討した。
その結果,公開データの量とプライバシ保護能力との間に有意な相関は認められなかった。
しかし、微調整ラウンドが増加するにつれて、プライバシー漏洩のリスクは減少または収束する。
関連論文リスト
- PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Clients Collaborate: Flexible Differentially Private Federated Learning
with Guaranteed Improvement of Utility-Privacy Trade-off [34.2117116062642]
我々は、モデルユーティリティとユーザプライバシのトレードオフを打つために、厳格なプライバシ保証を備えた新しいフェデレーション学習フレームワーク、FedCEOを紹介します。
グローバルなセマンティック空間を円滑にすることで,フェデCEOが破壊されたセマンティック情報を効果的に回復できることを示す。
異なるプライバシ設定の下で、大幅なパフォーマンス改善と厳格なプライバシ保証を観察する。
論文 参考訳(メタデータ) (2024-02-10T17:39:34Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z) - Mitigating Data Heterogeneity in Federated Learning with Data
Augmentation [26.226057709504733]
Federated Learning(FL)は、集中型モデルのトレーニングを可能にするフレームワークである。
主な障害の1つは、データ不均一性、すなわち、各クライアントが独立に独立に分散した(非IID)データを持っていることである。
最近の証拠は、データ拡張が同等またはそれ以上のパフォーマンスを誘導できることを示している。
論文 参考訳(メタデータ) (2022-06-20T19:47:43Z) - FedAUXfdp: Differentially Private One-Shot Federated Distillation [11.28272643576878]
FedAUXは、高度に異質なクライアントデータに対して堅牢な結果をもたらす、連邦蒸留の強化である。
大規模な画像データセット上のディープネットワークの実験では、強い差分プライバシー保証を持つFedAUXfdpは他のSOTAベースラインよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-05-30T09:57:33Z) - Federated Unsupervised Domain Adaptation for Face Recognition [26.336693850812118]
顔認識のための非教師付きドメイン適応フェデレーションであるFedFRを提案する。
対象領域におけるラベルなしデータに対しては,距離制約付きクラスタリングアルゴリズムを強化し,予測された擬似ラベルの品質を向上させる。
また、フェデレート学習において、ソースドメイントレーニングを正規化するための新しいドメイン制約損失を提案する。
論文 参考訳(メタデータ) (2022-04-09T04:02:03Z) - Understanding Clipping for Federated Learning: Convergence and
Client-Level Differential Privacy [67.4471689755097]
本稿では, 切断したFedAvgが, 実質的なデータ均一性でも驚くほど良好に動作できることを実証的に示す。
本稿では,差分プライベート(DP)FedAvgアルゴリズムの収束解析を行い,クリッピングバイアスとクライアント更新の分布との関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-25T14:47:19Z) - Towards Unsupervised Domain Adaptation for Deep Face Recognition under
Privacy Constraints via Federated Learning [33.33475702665153]
FedFR (Unsupervised Federated Face Recognition approach) を提案する。
fedfrは、フェデレーション学習を通じてソースドメインから知識を反復的に集約することで、ターゲットドメインのパフォーマンスを向上させる。
ドメイン間の生データの代わりにモデルを転送することで、データプライバシーを保護します。
論文 参考訳(メタデータ) (2021-05-17T04:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。