論文の概要: Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- arxiv url: http://arxiv.org/abs/2409.20135v5
- Date: Tue, 21 Jan 2025 09:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:32.409214
- Title: Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- Title(参考訳): ドメイン被覆強化によるLDMのフェデレーション・インストラクション・チューニング
- Authors: Zezhou Wang, Yaxin Du, Xingjun Ma, Yugang Jiang, Zhuzhong Qian, Siheng Chen,
- Abstract要約: Federated Domain-specific Instruction Tuning (FedDIT)は、限られたクロスクライアントなプライベートデータと、命令拡張のさまざまな戦略を利用する。
我々は,欲求のあるクライアントセンターの選択と検索に基づく拡張を通じて,ドメインカバレッジを最適化するFedDCAを提案する。
クライアント側の計算効率とシステムのスケーラビリティのために、FedDCAの変種であるFedDCA$*$はサーバ側の特徴アライメントを備えた異種エンコーダを利用する。
- 参考スコア(独自算出の注目度): 87.49293964617128
- License:
- Abstract: Federated Domain-specific Instruction Tuning (FedDIT) utilizes limited cross-client private data together with various strategies of instruction augmentation, ultimately boosting model performance within specific domains. To date, the factors affecting FedDIT remain unclear, and existing instruction augmentation methods primarily focus on the centralized setting without considering distributed environments. Our experiments reveal that the cross-client domain coverage, rather than data heterogeneity, drives model performance in FedDIT. In response, we propose FedDCA, which optimizes domain coverage through greedy client center selection and retrieval-based augmentation. At its core, the greedy selection procedure iteratively picks client centers that maximize the diversity and coverage of the instruction space while avoiding redundancy with previously selected centers. This ensures broad yet efficient coverage of the domain distribution across clients. For client-side computational efficiency and system scalability, FedDCA$^*$, the variant of FedDCA, utilizes heterogeneous encoders with server-side feature alignment. Extensive experiments across code, medical, financial, and mathematical domains substantiate the effectiveness of both methods, as well as plug-and-play capability. We further analyze privacy preservation against memory extraction attacks, showing that while privacy leakage risk is independent of augmented public data ratio, it decreases or converges as training progresses.
- Abstract(参考訳): Federated Domain-specific Instruction Tuning (FedDIT)は、限られたクロスクライアントなプライベートデータと、さまざまな命令拡張戦略を利用して、最終的に特定のドメイン内のモデルパフォーマンスを向上する。
現在まで、FedDITに影響を与える要因は不明確であり、既存の命令拡張手法は主に分散環境を考慮せずに集中的な設定に焦点を当てている。
実験の結果,データ不均一性ではなく,クロスクライアントなドメインカバレッジがFedDITのモデル性能を駆動していることが判明した。
そこで本研究では,クライアントセンターの選択と検索に基づく拡張により,ドメインカバレッジを最適化するFedDCAを提案する。
中心となるグリーディ選択手順は、以前選択されたセンターとの冗長性を避けながら、命令空間の多様性とカバレッジを最大化するクライアントセンターを反復的に選択する。
これにより、クライアント間でのドメイン分散を広く、かつ効率的にカバーできる。
クライアント側の計算効率とシステムのスケーラビリティのために、FedDCAの変種であるFedDCA$^*$はサーバ側の特徴アライメントを備えた異種エンコーダを利用する。
コード、医療、ファイナンシャル、数学的領域にわたる広範な実験は、両方の方法の有効性とプラグ・アンド・プレイの能力を裏付けるものである。
さらに、メモリ抽出攻撃に対するプライバシー保護を解析し、プライバシー漏洩リスクは、公開データ比に依存しないが、トレーニングが進むにつれて減少または収束することを示した。
関連論文リスト
- Secure Federated Data Distillation [2.5311562666866494]
プライバシを保ちながら蒸留プロセスの分散化を図るためのセキュアフェデレーションデータ蒸留フレームワーク(SFDD)を提案する。
蒸留知識でグローバルモデルを訓練することに焦点を当てた既存のフェデレート蒸留技術とは異なり,本手法は局所的な貢献を示さずに蒸留データセットを作成することを目的としている。
論文 参考訳(メタデータ) (2025-02-19T13:54:44Z) - FedAlign: Federated Domain Generalization with Cross-Client Feature Alignment [2.4472081831862655]
Federated Learning (FL)は、直接的なデータ共有なしに協調的なモデルトレーニングのための分散パラダイムを提供する。
ドメイン一般化(DG)には、厳密なプライバシー制約、非i.d.ローカルデータ、ドメインの多様性の制限など、ユニークな課題がある。
我々はフェデレーション設定におけるDGを強化するために設計された軽量なプライバシ保護フレームワークであるFedAlignを紹介する。
論文 参考訳(メタデータ) (2025-01-26T11:17:32Z) - Boosting Federated Learning with FedEntOpt: Mitigating Label Skew by Entropy-Based Client Selection [13.851391819710367]
ディープラーニングドメインは通常、最適なパフォーマンスのために大量のデータを必要とします。
FedEntOptは、ラベル配布スキューによるパフォーマンスの問題を軽減するように設計されている。
低い参加率とクライアントのドロップアウトのシナリオでは、堅牢で優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-02T13:31:36Z) - Federated Learning for Sparse Principal Component Analysis [0.0]
フェデレートラーニング(Federated Learning)は、クライアント側でモデルトレーニングが行われ、データをローカライズしてプライバシを保存する、分散化されたアプローチである。
本稿では,このフレームワークをSPCA(Sparse principal Component Analysis)に適用する。
SPCAは、解釈可能性を改善するためにデータの分散を最大化しながら、スパースコンポーネントのロードを達成することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T03:55:28Z) - FedSkip: Combatting Statistical Heterogeneity with Federated Skip
Aggregation [95.85026305874824]
我々はFedSkipと呼ばれるデータ駆動型アプローチを導入し、フェデレーション平均化を定期的にスキップし、ローカルモデルをクロスデバイスに分散することで、クライアントの最適化を改善する。
我々は、FedSkipがはるかに高い精度、より良いアグリゲーション効率、競合する通信効率を達成することを示すために、さまざまなデータセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2022-12-14T13:57:01Z) - Mitigating Data Heterogeneity in Federated Learning with Data
Augmentation [26.226057709504733]
Federated Learning(FL)は、集中型モデルのトレーニングを可能にするフレームワークである。
主な障害の1つは、データ不均一性、すなわち、各クライアントが独立に独立に分散した(非IID)データを持っていることである。
最近の証拠は、データ拡張が同等またはそれ以上のパフォーマンスを誘導できることを示している。
論文 参考訳(メタデータ) (2022-06-20T19:47:43Z) - Source-Free Domain Adaptation via Distribution Estimation [106.48277721860036]
ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分散が異なるラベル付きターゲットドメインに転送することを目的としています。
近年,ソースフリードメイン適応 (Source-Free Domain Adaptation, SFDA) が注目されている。
本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。
論文 参考訳(メタデータ) (2022-04-24T12:22:19Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Understanding Clipping for Federated Learning: Convergence and
Client-Level Differential Privacy [67.4471689755097]
本稿では, 切断したFedAvgが, 実質的なデータ均一性でも驚くほど良好に動作できることを実証的に示す。
本稿では,差分プライベート(DP)FedAvgアルゴリズムの収束解析を行い,クリッピングバイアスとクライアント更新の分布との関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-25T14:47:19Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。