論文の概要: Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- arxiv url: http://arxiv.org/abs/2409.20135v1
- Date: Tue, 1 Oct 2024 05:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 13:17:59.028788
- Title: Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- Title(参考訳): ドメイン被覆強化によるLDMのフェデレーション・インストラクション・チューニング
- Authors: Zezhou Wang, Yaxin Du, Zhuzhong Qian, Siheng Chen,
- Abstract要約: Federated Domain-specific Instruction Tuning (FedDIT)は、クロスクライアントなプライベートデータとサーバサイドのパブリックデータを活用して、命令拡張を行う。
我々は,クライアントセンターの選択と検索に基づく拡張により,ドメインカバレッジを最大化するFedDCAを提案する。
また、各種の公開データによるメモリ抽出攻撃に対するプライバシー保護についても検討する。
- 参考スコア(独自算出の注目度): 35.54111318340366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Domain-specific Instruction Tuning (FedDIT) leverages a few cross-client private data and server-side public data for instruction augmentation, enhancing model performance in specific domains. While the factors affecting FedDIT remain unclear and existing instruction augmentation methods mainly focus on the centralized setting without considering the distributed environment. Firstly, our experiments show that cross-client domain coverage, rather than data heterogeneity, drives model performance in FedDIT. Thus, we propose FedDCA, which maximizes domain coverage through greedy client center selection and retrieval-based augmentation. To reduce client-side computation, FedDCA$^*$ uses heterogeneous encoders with server-side feature alignment. Extensive experiments across four domains (code, medical, financial, and mathematical) validate the effectiveness of both methods. Additionally, we explore the privacy protection against memory extraction attacks with various amounts of public data and results show that there is no significant correlation between the amount of public data and the privacy-preserving capability. However, as the fine-tuning round increases, the risk of privacy leakage reduces or converges.
- Abstract(参考訳): Federated Domain-specific Instruction Tuning (FedDIT)は、クロスクライアントなプライベートデータとサーバサイドのパブリックデータを活用して、特定のドメインにおけるモデルパフォーマンスを向上させる。
FedDITに影響を与える要因は依然として不明であり、既存の命令拡張手法は主に分散環境を考慮せずに集中的な設定に焦点を当てている。
まず、データ不均一性ではなく、クロスクライアントなドメインカバレッジがFedDITのモデル性能を駆動することを示す。
そこで本研究では,クライアントセンターの選択と検索に基づく拡張により,ドメインカバレッジを最大化するFedDCAを提案する。
クライアント側の計算を減らすため、FedDCA$^*$はサーバ側の機能アライメントを備えた異種エンコーダを使用する。
4つの領域(コード、医療、財務、数学)にわたる大規模な実験は、両方の方法の有効性を検証する。
さらに,各種の公開データを用いたメモリ抽出攻撃に対するプライバシ保護について検討した結果,公開データ量とプライバシ保護能力との間に有意な相関関係がないことが判明した。
しかし、微調整ラウンドが増加するにつれて、プライバシー漏洩のリスクは減少または収束する。
関連論文リスト
- Secure Federated Data Distillation [2.5311562666866494]
プライバシを保ちながら蒸留プロセスの分散化を図るためのセキュアフェデレーションデータ蒸留フレームワーク(SFDD)を提案する。
蒸留知識でグローバルモデルを訓練することに焦点を当てた既存のフェデレート蒸留技術とは異なり,本手法は局所的な貢献を示さずに蒸留データセットを作成することを目的としている。
論文 参考訳(メタデータ) (2025-02-19T13:54:44Z) - FedAlign: Federated Domain Generalization with Cross-Client Feature Alignment [2.4472081831862655]
Federated Learning (FL)は、直接的なデータ共有なしに協調的なモデルトレーニングのための分散パラダイムを提供する。
ドメイン一般化(DG)には、厳密なプライバシー制約、非i.d.ローカルデータ、ドメインの多様性の制限など、ユニークな課題がある。
我々はフェデレーション設定におけるDGを強化するために設計された軽量なプライバシ保護フレームワークであるFedAlignを紹介する。
論文 参考訳(メタデータ) (2025-01-26T11:17:32Z) - Boosting Federated Learning with FedEntOpt: Mitigating Label Skew by Entropy-Based Client Selection [13.851391819710367]
ディープラーニングドメインは通常、最適なパフォーマンスのために大量のデータを必要とします。
FedEntOptは、ラベル配布スキューによるパフォーマンスの問題を軽減するように設計されている。
低い参加率とクライアントのドロップアウトのシナリオでは、堅牢で優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-02T13:31:36Z) - Federated Learning for Sparse Principal Component Analysis [0.0]
フェデレートラーニング(Federated Learning)は、クライアント側でモデルトレーニングが行われ、データをローカライズしてプライバシを保存する、分散化されたアプローチである。
本稿では,このフレームワークをSPCA(Sparse principal Component Analysis)に適用する。
SPCAは、解釈可能性を改善するためにデータの分散を最大化しながら、スパースコンポーネントのロードを達成することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T03:55:28Z) - FedSkip: Combatting Statistical Heterogeneity with Federated Skip
Aggregation [95.85026305874824]
我々はFedSkipと呼ばれるデータ駆動型アプローチを導入し、フェデレーション平均化を定期的にスキップし、ローカルモデルをクロスデバイスに分散することで、クライアントの最適化を改善する。
我々は、FedSkipがはるかに高い精度、より良いアグリゲーション効率、競合する通信効率を達成することを示すために、さまざまなデータセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2022-12-14T13:57:01Z) - Mitigating Data Heterogeneity in Federated Learning with Data
Augmentation [26.226057709504733]
Federated Learning(FL)は、集中型モデルのトレーニングを可能にするフレームワークである。
主な障害の1つは、データ不均一性、すなわち、各クライアントが独立に独立に分散した(非IID)データを持っていることである。
最近の証拠は、データ拡張が同等またはそれ以上のパフォーマンスを誘導できることを示している。
論文 参考訳(メタデータ) (2022-06-20T19:47:43Z) - Source-Free Domain Adaptation via Distribution Estimation [106.48277721860036]
ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分散が異なるラベル付きターゲットドメインに転送することを目的としています。
近年,ソースフリードメイン適応 (Source-Free Domain Adaptation, SFDA) が注目されている。
本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。
論文 参考訳(メタデータ) (2022-04-24T12:22:19Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Understanding Clipping for Federated Learning: Convergence and
Client-Level Differential Privacy [67.4471689755097]
本稿では, 切断したFedAvgが, 実質的なデータ均一性でも驚くほど良好に動作できることを実証的に示す。
本稿では,差分プライベート(DP)FedAvgアルゴリズムの収束解析を行い,クリッピングバイアスとクライアント更新の分布との関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-25T14:47:19Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。