論文の概要: Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- arxiv url: http://arxiv.org/abs/2409.20135v3
- Date: Fri, 11 Oct 2024 12:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 16:08:18.055404
- Title: Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- Title(参考訳): ドメイン被覆強化によるLDMのフェデレーション・インストラクション・チューニング
- Authors: Zezhou Wang, Yaxin Du, Zhuzhong Qian, Siheng Chen,
- Abstract要約: Federated Domain-specific Instruction Tuning (FedDIT)は、クロスクライアントなプライベートデータとサーバサイドの公開データを使って、命令拡張を行う。
我々は,欲求のあるクライアントセンターの選択と検索に基づく拡張を通じて,ドメインカバレッジを最適化するFedDCAを提案する。
また,多量の公開データを用いたメモリ抽出攻撃に対するプライバシ保護についても検討した。
- 参考スコア(独自算出の注目度): 35.54111318340366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Domain-specific Instruction Tuning (FedDIT) utilizes limited cross-client private data together with server-side public data for instruction augmentation, ultimately boosting model performance within specific domains. To date, the factors affecting FedDIT remain unclear, and existing instruction augmentation methods primarily focus on the centralized setting without considering distributed environments. Our experiments reveal that the cross-client domain coverage, rather than data heterogeneity, drives model performance in FedDIT. In response, we propose FedDCA, which optimizes domain coverage through greedy client center selection and retrieval-based augmentation. For client-side computational efficiency and system scalability, FedDCA$^*$, the variant of FedDCA, utilizes heterogeneous encoders with server-side feature alignment. Extensive experiments across four distinct domains (code, medical, financial, and mathematical) substantiate the effectiveness of both methods. Additionally, we investigate privacy preservation against memory extraction attacks utilizing various amounts of public data. Results show that there is no significant correlation between the volume of public data and the privacy-preserving capability. However, as the fine-tuning rounds increase, the risk of privacy leakage reduces or converges.
- Abstract(参考訳): Federated Domain-specific Instruction Tuning (FedDIT)は、限られたクロスクライアントなプライベートデータとサーバサイドの公開データを使って命令拡張を行い、最終的に特定のドメイン内のモデルパフォーマンスを向上する。
現在まで、FedDITに影響を与える要因は不明確であり、既存の命令拡張手法は主に分散環境を考慮せずに集中的な設定に焦点を当てている。
実験の結果,データ不均一性ではなく,クロスクライアントなドメインカバレッジがFedDITのモデル性能を駆動していることが判明した。
そこで本研究では,クライアントセンターの選択と検索に基づく拡張により,ドメインカバレッジを最適化するFedDCAを提案する。
クライアント側の計算効率とシステムのスケーラビリティのために、FedDCAの変種であるFedDCA$^*$はサーバ側の特徴アライメントを備えた異種エンコーダを利用する。
4つの異なる領域(コード、医療、財務、数学)にわたる大規模な実験は、両方の方法の有効性を裏付けるものである。
さらに,多量の公開データを用いたメモリ抽出攻撃に対するプライバシ保護について検討した。
その結果,公開データの量とプライバシ保護能力との間に有意な相関は認められなかった。
しかし、微調整ラウンドの増加に伴い、プライバシー漏洩のリスクは減少または収束する。
関連論文リスト
- Privacy Preserving Federated Unsupervised Domain Adaptation with Application to Age Prediction from DNA Methylation Data [2.699900017799093]
高次元設定における教師なしドメイン適応のためのプライバシ保護フレームワークを提案する。
我々のフレームワークは、フェデレートされた環境における高次元ドメイン適応のための最初のプライバシ保護ソリューションである。
論文 参考訳(メタデータ) (2024-11-26T10:19:16Z) - Enhancing Federated Domain Adaptation with Multi-Domain Prototype-Based Federated Fine-Tuning [15.640664498531274]
フェデレーション・ドメイン適応(Federated Domain Adaptation, FDA)は、フェデレーション・ラーニング(FL)シナリオである。
我々はtextbfMulti- domain textbfPrototype-based textbfFederated Fine-textbfTuning (MPFT) と呼ばれる新しいフレームワークを提案する。
MPFTファインチューン(英: MPFT fine-tunes)は、マルチドメインのプロトタイプ、すなわち、カテゴリ固有のローカルデータから、ドメイン固有の情報に富んだ事前訓練された表現を用いた事前訓練されたモデルである。
論文 参考訳(メタデータ) (2024-10-10T09:15:56Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Clients Collaborate: Flexible Differentially Private Federated Learning
with Guaranteed Improvement of Utility-Privacy Trade-off [34.2117116062642]
我々は、モデルユーティリティとユーザプライバシのトレードオフを打つために、厳格なプライバシ保証を備えた新しいフェデレーション学習フレームワーク、FedCEOを紹介します。
グローバルなセマンティック空間を円滑にすることで,フェデCEOが破壊されたセマンティック情報を効果的に回復できることを示す。
異なるプライバシ設定の下で、大幅なパフォーマンス改善と厳格なプライバシ保証を観察する。
論文 参考訳(メタデータ) (2024-02-10T17:39:34Z) - FedSkip: Combatting Statistical Heterogeneity with Federated Skip
Aggregation [95.85026305874824]
我々はFedSkipと呼ばれるデータ駆動型アプローチを導入し、フェデレーション平均化を定期的にスキップし、ローカルモデルをクロスデバイスに分散することで、クライアントの最適化を改善する。
我々は、FedSkipがはるかに高い精度、より良いアグリゲーション効率、競合する通信効率を達成することを示すために、さまざまなデータセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2022-12-14T13:57:01Z) - Mitigating Data Heterogeneity in Federated Learning with Data
Augmentation [26.226057709504733]
Federated Learning(FL)は、集中型モデルのトレーニングを可能にするフレームワークである。
主な障害の1つは、データ不均一性、すなわち、各クライアントが独立に独立に分散した(非IID)データを持っていることである。
最近の証拠は、データ拡張が同等またはそれ以上のパフォーマンスを誘導できることを示している。
論文 参考訳(メタデータ) (2022-06-20T19:47:43Z) - Federated Unsupervised Domain Adaptation for Face Recognition [26.336693850812118]
顔認識のための非教師付きドメイン適応フェデレーションであるFedFRを提案する。
対象領域におけるラベルなしデータに対しては,距離制約付きクラスタリングアルゴリズムを強化し,予測された擬似ラベルの品質を向上させる。
また、フェデレート学習において、ソースドメイントレーニングを正規化するための新しいドメイン制約損失を提案する。
論文 参考訳(メタデータ) (2022-04-09T04:02:03Z) - Understanding Clipping for Federated Learning: Convergence and
Client-Level Differential Privacy [67.4471689755097]
本稿では, 切断したFedAvgが, 実質的なデータ均一性でも驚くほど良好に動作できることを実証的に示す。
本稿では,差分プライベート(DP)FedAvgアルゴリズムの収束解析を行い,クリッピングバイアスとクライアント更新の分布との関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-25T14:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。