論文の概要: Optimizing Cross-Client Domain Coverage for Federated Instruction Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2409.20135v6
- Date: Thu, 21 Aug 2025 09:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 14:03:17.001628
- Title: Optimizing Cross-Client Domain Coverage for Federated Instruction Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルのフェデレーションチューニングのためのクロスクライアントドメインカバレッジの最適化
- Authors: Zezhou Wang, Yaxin Du, Xingjun Ma, Yugang Jiang, Zhuzhong Qian, Siheng Chen,
- Abstract要約: 大規模言語モデル(LLM)のためのFedDIT(Federated Domain-specific instruction tuning)は、分散プライベートデータと限定データを用いて、特定のドメインの性能を向上させることを目的としている。
データ不均一性ではなく、クロスクライアントなドメインカバレッジが重要な要素であることを実証的に証明します。
我々は多様性指向のクライアントセンターの選択と検索に基づく拡張を通じて、このカバレッジを明示的に最大化するアルゴリズムであるFedDCAを紹介する。
- 参考スコア(独自算出の注目度): 87.49293964617128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated domain-specific instruction tuning (FedDIT) for large language models (LLMs) aims to enhance performance in specialized domains using distributed private and limited data, yet identifying key performance drivers and optimal augmentation strategies remains challenging. We empirically establish that cross-client domain coverage, rather than data heterogeneity, is the pivotal factor. We then introduce FedDCA, an algorithm that explicitly maximizes this coverage through diversity-oriented client center selection and retrieval-based augmentation, constructing diverse, non-redundant cross-client instruction sets. Extensive experiments across multiple domains demonstrate FedDCA's superiority over eleven baselines, achieving performance gains of up to 29.19\% and domain coverage improvements of 4.82\%-21.36\%. FedDCA maintains its effectiveness in diverse and challenging scenarios, including data selection, held-out settings where task-specific public data is scarce and various data heterogeneity, with manageable privacy risks. This work clarifies critical FedDIT dynamics and presents FedDCA as an effective, privacy-preserving, and scalable solution for advancing domain-specific LLM tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)のためのFedDIT(Federated Domain-specific instruction tuning)は、分散プライベートデータと限定データを用いて、特定のドメインのパフォーマンスを向上させることを目的としている。
データ不均一性ではなく、クロスクライアントなドメインカバレッジが重要な要素であることを実証的に証明します。
次に、多様性指向のクライアントセンター選択と検索に基づく拡張により、このカバレッジを明示的に最大化するアルゴリズムであるFedDCAを紹介し、多様な非冗長なクロスクライアント命令セットを構築する。
複数のドメインにわたる大規模な実験は、FedDCAが11つのベースラインよりも優れていることを示し、パフォーマンスが29.19\%まで向上し、ドメインカバレッジが4.82\%-21.36\%まで向上したことを示している。
FedDCAは、データ選択、タスク固有の公開データが不足するホールトアウト設定、さまざまなデータの異質性、管理可能なプライバシーリスクなど、多様で困難なシナリオにおいて、その効果を維持している。
この研究は、重要なFedDITのダイナミクスを明らかにし、FedDCAを、ドメイン固有のLLMチューニングを前進させる効果的な、プライバシ保護、スケーラブルなソリューションとして提示する。
関連論文リスト
- Federated Cross-Domain Click-Through Rate Prediction With Large Language Model Augmentation [4.978132660177235]
大規模言語モデル拡張(FedCCTR-LM)を用いたFedCCTR予測について述べる。
まずプライバシ保護強化ネットワーク(PrivNet)では,ユーザとアイテムの表現を充実させるために,大規模な言語モデルを採用している。
第2に、IDST-CL(Independent Domain-Specific Transformer with Contrastive Learning)モジュールは、ドメイン固有の、共有されたユーザの好みを乱す。
第3に、Adaptive Local Differential Privacy(AdaLDP)メカニズムは、ノイズ注入を動的に校正し、厳密なプライバシー保証と予測精度の最適なバランスを実現する。
論文 参考訳(メタデータ) (2025-03-21T06:22:42Z) - Privacy Preserving and Robust Aggregation for Cross-Silo Federated Learning in Non-IID Settings [1.8434042562191815]
フェデレーション平均化は、フェデレーション学習において最も広く使われているアグリゲーション戦略である。
私たちのメソッドは、追加のクライアントメタデータを不要にするため、グラデーション更新のみに依存しています。
本研究は, グラデーションマスキングの有効性を, フェデレート学習のための実用的でセキュアなソリューションとして確立した。
論文 参考訳(メタデータ) (2025-03-06T14:06:20Z) - FedAlign: Federated Domain Generalization with Cross-Client Feature Alignment [2.4472081831862655]
Federated Learning (FL)は、直接的なデータ共有なしに協調的なモデルトレーニングのための分散パラダイムを提供する。
ドメイン一般化(DG)には、厳密なプライバシー制約、非i.d.ローカルデータ、ドメインの多様性の制限など、ユニークな課題がある。
我々はフェデレーション設定におけるDGを強化するために設計された軽量なプライバシ保護フレームワークであるFedAlignを紹介する。
論文 参考訳(メタデータ) (2025-01-26T11:17:32Z) - Privacy Preserving Federated Unsupervised Domain Adaptation with Application to Age Prediction from DNA Methylation Data [2.699900017799093]
高次元設定における教師なしドメイン適応のためのプライバシ保護フレームワークを提案する。
我々のフレームワークは、フェデレートされた環境における高次元ドメイン適応のための最初のプライバシ保護ソリューションである。
論文 参考訳(メタデータ) (2024-11-26T10:19:16Z) - PARDON: Privacy-Aware and Robust Federated Domain Generalization [5.584498171854557]
フェデレーテッド・ラーニング(FL)は、プライバシの保護と協調学習の実現を約束している。
クライアントデータが多様なドメインから来ると、目に見えないドメインのパフォーマンスが低下する。
既存のフェデレーションドメインの一般化アプローチはこの問題に対処するが、各クライアントがドメイン全体のデータを保持すると仮定する。
我々は、より複雑なドメイン分布を堅牢に扱うように設計された新しいFedDGパラダイムであるFISCを紹介する。
論文 参考訳(メタデータ) (2024-10-30T00:50:23Z) - Enhancing Federated Domain Adaptation with Multi-Domain Prototype-Based Federated Fine-Tuning [15.640664498531274]
フェデレーション・ドメイン適応(Federated Domain Adaptation, FDA)は、フェデレーション・ラーニング(FL)シナリオである。
我々はtextbfMulti- domain textbfPrototype-based textbfFederated Fine-textbfTuning (MPFT) と呼ばれる新しいフレームワークを提案する。
MPFTファインチューン(英: MPFT fine-tunes)は、マルチドメインのプロトタイプ、すなわち、カテゴリ固有のローカルデータから、ドメイン固有の情報に富んだ事前訓練された表現を用いた事前訓練されたモデルである。
論文 参考訳(メタデータ) (2024-10-10T09:15:56Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Clients Collaborate: Flexible Differentially Private Federated Learning
with Guaranteed Improvement of Utility-Privacy Trade-off [34.2117116062642]
我々は、モデルユーティリティとユーザプライバシのトレードオフを打つために、厳格なプライバシ保証を備えた新しいフェデレーション学習フレームワーク、FedCEOを紹介します。
グローバルなセマンティック空間を円滑にすることで,フェデCEOが破壊されたセマンティック情報を効果的に回復できることを示す。
異なるプライバシ設定の下で、大幅なパフォーマンス改善と厳格なプライバシ保証を観察する。
論文 参考訳(メタデータ) (2024-02-10T17:39:34Z) - FedSkip: Combatting Statistical Heterogeneity with Federated Skip
Aggregation [95.85026305874824]
我々はFedSkipと呼ばれるデータ駆動型アプローチを導入し、フェデレーション平均化を定期的にスキップし、ローカルモデルをクロスデバイスに分散することで、クライアントの最適化を改善する。
我々は、FedSkipがはるかに高い精度、より良いアグリゲーション効率、競合する通信効率を達成することを示すために、さまざまなデータセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2022-12-14T13:57:01Z) - Mitigating Data Heterogeneity in Federated Learning with Data
Augmentation [26.226057709504733]
Federated Learning(FL)は、集中型モデルのトレーニングを可能にするフレームワークである。
主な障害の1つは、データ不均一性、すなわち、各クライアントが独立に独立に分散した(非IID)データを持っていることである。
最近の証拠は、データ拡張が同等またはそれ以上のパフォーマンスを誘導できることを示している。
論文 参考訳(メタデータ) (2022-06-20T19:47:43Z) - Source-Free Domain Adaptation via Distribution Estimation [106.48277721860036]
ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分散が異なるラベル付きターゲットドメインに転送することを目的としています。
近年,ソースフリードメイン適応 (Source-Free Domain Adaptation, SFDA) が注目されている。
本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。
論文 参考訳(メタデータ) (2022-04-24T12:22:19Z) - Federated Unsupervised Domain Adaptation for Face Recognition [26.336693850812118]
顔認識のための非教師付きドメイン適応フェデレーションであるFedFRを提案する。
対象領域におけるラベルなしデータに対しては,距離制約付きクラスタリングアルゴリズムを強化し,予測された擬似ラベルの品質を向上させる。
また、フェデレート学習において、ソースドメイントレーニングを正規化するための新しいドメイン制約損失を提案する。
論文 参考訳(メタデータ) (2022-04-09T04:02:03Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Understanding Clipping for Federated Learning: Convergence and
Client-Level Differential Privacy [67.4471689755097]
本稿では, 切断したFedAvgが, 実質的なデータ均一性でも驚くほど良好に動作できることを実証的に示す。
本稿では,差分プライベート(DP)FedAvgアルゴリズムの収束解析を行い,クリッピングバイアスとクライアント更新の分布との関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-25T14:47:19Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。