論文の概要: Enhancing Data Quality in Federated Fine-Tuning of Foundation Models
- arxiv url: http://arxiv.org/abs/2403.04529v1
- Date: Thu, 7 Mar 2024 14:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:42:36.387213
- Title: Enhancing Data Quality in Federated Fine-Tuning of Foundation Models
- Title(参考訳): ファウンデーションモデルのファインチューニングにおけるデータ品質向上
- Authors: Wanru Zhao, Yaxin Du, Nicholas Donald Lane, Siheng Chen, Yanfeng Wang
- Abstract要約: 本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
- 参考スコア(独自算出の注目度): 54.757324343062734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current landscape of foundation model training, there is a significant
reliance on public domain data, which is nearing exhaustion according to recent
research. To further scale up, it is crucial to incorporate collaboration among
multiple specialized and high-quality private domain data sources. However, the
challenge of training models locally without sharing private data presents
numerous obstacles in data quality control. To tackle this issue, we propose a
data quality control pipeline for federated fine-tuning of foundation models.
This pipeline computes scores reflecting the quality of training data and
determines a global threshold for a unified standard, aiming for improved
global performance. Our experiments show that the proposed quality control
pipeline facilitates the effectiveness and reliability of the model training,
leading to better performance.
- Abstract(参考訳): ファンデーションモデルトレーニングの現在の状況では、パブリックドメインデータに大きく依存しており、最近の研究によると枯渇に近づいている。
さらにスケールアップするには、複数の専門的で高品質なプライベートドメインデータソース間のコラボレーションを組み込むことが不可欠である。
しかし、プライベートデータを共有せずにローカルでモデルをトレーニングするという課題は、データ品質管理において多くの障害をもたらす。
そこで本研究では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの品質を反映したスコアを計算し、グローバルなパフォーマンス向上を目的とした統一標準のグローバルしきい値を決定する。
提案する品質制御パイプラインは,モデルトレーニングの有効性と信頼性が向上し,パフォーマンスが向上することを示す。
関連論文リスト
- Synthetic Data Aided Federated Learning Using Foundation Models [4.666380225768727]
ファウンデーションモデル(DPSDA-FL)を用いたFederated Learningを支援する微分プライベートデータを提案する。
実験の結果,DPSDA-FLは,非IID問題のあるFLにおいて,クラスリコールとクラス分類精度を最大26%, 9%向上できることがわかった。
論文 参考訳(メタデータ) (2024-07-06T20:31:43Z) - An Aggregation-Free Federated Learning for Tackling Data Heterogeneity [50.44021981013037]
フェデレートラーニング(FL)は、分散データセットからの知識を活用する効果に頼っている。
従来のFLメソッドでは、クライアントが前回のトレーニングラウンドからサーバが集約したグローバルモデルに基づいてローカルモデルを更新するアグリゲート-then-adaptフレームワークを採用している。
我々は,新しいアグリゲーションフリーFLアルゴリズムであるFedAFを紹介する。
論文 参考訳(メタデータ) (2024-04-29T05:55:23Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - FedFN: Feature Normalization for Alleviating Data Heterogeneity Problem
in Federated Learning [29.626725039794383]
簡単な学習方法であるFederated Averaging with Feature Normalization Update (FedFN)を紹介する。
事前訓練されたResNet18に適用しても, 広範囲な実験によりFedFNの優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-22T09:37:33Z) - Leveraging Foundation Models to Improve Lightweight Clients in Federated
Learning [16.684749528240587]
Federated Learning(FL)は、世界中に散在するクライアントが機密データを漏らさずにグローバルモデルを共同で学習することを可能にする、分散トレーニングパラダイムである。
FLは、クライアント間での不均一なデータ分散という形で大きな課題に直面しており、パフォーマンスとロバスト性は低下している。
本稿では,軽量クライアントモデルの連合訓練を支援し,推論コストを低く抑えつつ,不均一なデータ設定下での性能を向上させる基礎モデル蒸留について紹介する。
論文 参考訳(メタデータ) (2023-11-14T19:10:56Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Federated Multilingual Models for Medical Transcript Analysis [11.877236847857336]
大規模多言語モデルを学習するための連合学習システムを提案する。
トレーニングデータはすべて、中央に送信されることはない。
本研究では,グローバルモデルの性能を,局所的に行うトレーニングステップによってさらに向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-04T01:07:54Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。