Fugu-MT 論文翻訳(概要): Enhancing Data Quality in Federated Fine-Tuning of Foundation Models

論文の概要: Enhancing Data Quality in Federated Fine-Tuning of Foundation Models

arxiv url: http://arxiv.org/abs/2403.04529v1
Date: Thu, 7 Mar 2024 14:28:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:42:36.387213
Title: Enhancing Data Quality in Federated Fine-Tuning of Foundation Models
Title（参考訳）: ファウンデーションモデルのファインチューニングにおけるデータ品質向上
Authors: Wanru Zhao, Yaxin Du, Nicholas Donald Lane, Siheng Chen, Yanfeng Wang
Abstract要約: 本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
参考スコア（独自算出の注目度）: 54.757324343062734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the current landscape of foundation model training, there is a significant reliance on public domain data, which is nearing exhaustion according to recent research. To further scale up, it is crucial to incorporate collaboration among multiple specialized and high-quality private domain data sources. However, the challenge of training models locally without sharing private data presents numerous obstacles in data quality control. To tackle this issue, we propose a data quality control pipeline for federated fine-tuning of foundation models. This pipeline computes scores reflecting the quality of training data and determines a global threshold for a unified standard, aiming for improved global performance. Our experiments show that the proposed quality control pipeline facilitates the effectiveness and reliability of the model training, leading to better performance.
Abstract（参考訳）: ファンデーションモデルトレーニングの現在の状況では、パブリックドメインデータに大きく依存しており、最近の研究によると枯渇に近づいている。さらにスケールアップするには、複数の専門的で高品質なプライベートドメインデータソース間のコラボレーションを組み込むことが不可欠である。しかし、プライベートデータを共有せずにローカルでモデルをトレーニングするという課題は、データ品質管理において多くの障害をもたらす。そこで本研究では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。このパイプラインは、トレーニングデータの品質を反映したスコアを計算し、グローバルなパフォーマンス向上を目的とした統一標準のグローバルしきい値を決定する。提案する品質制御パイプラインは,モデルトレーニングの有効性と信頼性が向上し,パフォーマンスが向上することを示す。

関連論文リスト

CLUES: Collaborative High-Quality Data Selection for LLMs via Training Dynamics [38.09168541922346]
本稿では,言語モデル(LLM)の学習力学に対するデータ影響の概念に基づく,新しいデータ品質制御手法を提案する。次に、トレーニングダイナミクスの影響を活用して、異なるプライベートドメインから高品質なデータを選択する。実験により,提案手法により選択された高品質なデータに対するトレーニングは,LLMの協調微調整において,他のデータ選択方法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-07-02T06:19:40Z)
Robust Federated Learning with Confidence-Weighted Filtering and GAN-Based Completion under Noisy and Incomplete Data [0.0]
フェデレートラーニング(FL)は、分散化されたクライアントデータセット間のデータのプライバシを維持しながら、協調的なモデルトレーニングのための効果的なソリューションを提供する。本研究では,ノイズやクラス不均衡,ラベルの欠落など,データ品質問題に体系的に対処するフェデレート学習手法を提案する。以上の結果から,この手法はデータ品質の課題を効果的に軽減し,堅牢でスケーラブルでプライバシに適合したソリューションを提供することが示唆された。
論文参考訳（メタデータ） (2025-05-14T18:49:18Z)
DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-02-26T18:01:19Z)
A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文参考訳（メタデータ） (2024-12-17T18:34:43Z)
Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
フェデレートラーニング(Federated Learning)は、大きな言語モデルのプライバシ保護と協調的な命令チューニングを可能にする。ローカルクライアントには、トレーニング前にノイズや低品質のサンプルをフィルタリングするグローバルな可視性がない。我々は,動的データ品質制御を備えた新しいフェデレーション・インストラクション・チューニング・フレームワークであるFedDQCを提案する。
論文参考訳（メタデータ） (2024-10-15T12:14:57Z)
Synthetic Data Aided Federated Learning Using Foundation Models [4.666380225768727]
ファウンデーションモデル(DPSDA-FL)を用いたFederated Learningを支援する微分プライベートデータを提案する。実験の結果,DPSDA-FLは,非IID問題のあるFLにおいて,クラスリコールとクラス分類精度を最大26%, 9%向上できることがわかった。
論文参考訳（メタデータ） (2024-07-06T20:31:43Z)
An Aggregation-Free Federated Learning for Tackling Data Heterogeneity [50.44021981013037]
フェデレートラーニング(FL)は、分散データセットからの知識を活用する効果に頼っている。従来のFLメソッドでは、クライアントが前回のトレーニングラウンドからサーバが集約したグローバルモデルに基づいてローカルモデルを更新するアグリゲート-then-adaptフレームワークを採用している。我々は,新しいアグリゲーションフリーFLアルゴリズムであるFedAFを紹介する。
論文参考訳（メタデータ） (2024-04-29T05:55:23Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
FedFN: Feature Normalization for Alleviating Data Heterogeneity Problem in Federated Learning [29.626725039794383]
簡単な学習方法であるFederated Averaging with Feature Normalization Update (FedFN)を紹介する。事前訓練されたResNet18に適用しても, 広範囲な実験によりFedFNの優れた性能を示す。
論文参考訳（メタデータ） (2023-11-22T09:37:33Z)
Leveraging Foundation Models to Improve Lightweight Clients in Federated Learning [16.684749528240587]
Federated Learning(FL)は、世界中に散在するクライアントが機密データを漏らさずにグローバルモデルを共同で学習することを可能にする、分散トレーニングパラダイムである。 FLは、クライアント間での不均一なデータ分散という形で大きな課題に直面しており、パフォーマンスとロバスト性は低下している。本稿では,軽量クライアントモデルの連合訓練を支援し,推論コストを低く抑えつつ,不均一なデータ設定下での性能を向上させる基礎モデル蒸留について紹介する。
論文参考訳（メタデータ） (2023-11-14T19:10:56Z)
Consistency Regularization for Generalizable Source-free Domain Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-03T07:45:53Z)
Federated Multilingual Models for Medical Transcript Analysis [11.877236847857336]
大規模多言語モデルを学習するための連合学習システムを提案する。トレーニングデータはすべて、中央に送信されることはない。本研究では,グローバルモデルの性能を,局所的に行うトレーニングステップによってさらに向上させることができることを示す。
論文参考訳（メタデータ） (2022-11-04T01:07:54Z)
FedDM: Iterative Distribution Matching for Communication-Efficient Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文参考訳（メタデータ） (2022-07-20T04:55:18Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。