論文の概要: Federated Multilingual Models for Medical Transcript Analysis
- arxiv url: http://arxiv.org/abs/2211.09722v1
- Date: Fri, 4 Nov 2022 01:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 13:42:14.332829
- Title: Federated Multilingual Models for Medical Transcript Analysis
- Title(参考訳): 医療転写解析のための統合多言語モデル
- Authors: Andre Manoel, Mirian Hipolito Garcia, Tal Baumel, Shize Su, Jialei
Chen, Dan Miller, Danny Karmon, Robert Sim, Dimitrios Dimitriadis
- Abstract要約: 大規模多言語モデルを学習するための連合学習システムを提案する。
トレーニングデータはすべて、中央に送信されることはない。
本研究では,グローバルモデルの性能を,局所的に行うトレーニングステップによってさらに向上させることができることを示す。
- 参考スコア(独自算出の注目度): 11.877236847857336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated Learning (FL) is a novel machine learning approach that allows the
model trainer to access more data samples, by training the model across
multiple decentralized data sources, while data access constraints are in
place. Such trained models can achieve significantly higher performance beyond
what can be done when trained on a single data source. As part of FL's
promises, none of the training data is ever transmitted to any central
location, ensuring that sensitive data remains local and private. These
characteristics make FL perfectly suited for large-scale applications in
healthcare, where a variety of compliance constraints restrict how data may be
handled, processed, and stored. Despite the apparent benefits of federated
learning, the heterogeneity in the local data distributions pose significant
challenges, and such challenges are even more pronounced in the case of
multilingual data providers. In this paper we present a federated learning
system for training a large-scale multi-lingual model suitable for fine-tuning
on downstream tasks such as medical entity tagging. Our work represents one of
the first such production-scale systems, capable of training across multiple
highly heterogeneous data providers, and achieving levels of accuracy that
could not be otherwise achieved by using central training with public data.
Finally, we show that the global model performance can be further improved by a
training step performed locally.
- Abstract(参考訳): フェデレーション学習(federated learning、fl)は、モデルトレーナーが複数の分散データソースにまたがってモデルをトレーニングすることで、より多くのデータサンプルにアクセスできるようにする、新しい機械学習アプローチである。
このようなトレーニングされたモデルは、単一のデータソースでトレーニングした場合にできること以上のパフォーマンスを実現することができる。
FLの約束の一部として、トレーニングデータはすべて中央に送信されず、機密データがローカルおよびプライベートのままであることを保証する。
これらの特徴により、FLは医療における大規模アプリケーションに完全に適合し、さまざまなコンプライアンス制約がデータの処理、処理、保存の方法を制限する。
フェデレーション学習の明らかなメリットにもかかわらず、ローカルデータ分布の多様性は重大な課題となり、多言語データプロバイダの場合、そのような課題はさらに顕著である。
本稿では,医療機関タグ付けなどの下流タスクの微調整に適した大規模多言語モデルを訓練するための連合学習システムを提案する。
我々の研究は、複数の高度に異質なデータプロバイダにまたがるトレーニングが可能な、最初のプロダクションスケールシステムのひとつであり、パブリックデータを使った中央トレーニングでは達成できないレベルの精度を実現しています。
最後に,局所的に実施したトレーニングステップによって,グローバルモデルのパフォーマンスをさらに向上できることを示す。
関連論文リスト
- Align as Ideal: Cross-Modal Alignment Binding for Federated Medical Vision-Language Pre-training [3.249954379196379]
視覚言語による事前訓練には大規模なマルチモーダルデータが必要であるため、特に医学的応用において障害となる。
We propose a Federated Align as IDeal (FedAID) framework to bind local client with an ideal crossmodal alignment。
実世界のデータセットを用いた実験では,効率的なフェデレーション型マルチモーダル学習の促進に成功している。
論文 参考訳(メタデータ) (2024-04-05T01:17:25Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - The Best of Both Worlds: Accurate Global and Personalized Models through
Federated Learning with Data-Free Hyper-Knowledge Distillation [17.570719572024608]
FedHKD (Federated Hyper-Knowledge Distillation) は、クライアントがローカルモデルを訓練するために知識蒸留に依存する新しいFLアルゴリズムである。
他のKDベースのpFLメソッドとは異なり、FedHKDはパブリックデータセットに依存したり、サーバに生成モデルをデプロイしたりしない。
さまざまなシナリオにおける視覚的データセットに関する広範な実験を行い、FedHKDがパーソナライズおよびグローバルモデルパフォーマンスの両方において、大幅な改善を提供することを示した。
論文 参考訳(メタデータ) (2023-01-21T16:20:57Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - Data Selection for Efficient Model Update in Federated Learning [0.07614628596146598]
本稿では,グローバルモデルのトレーニングに必要なローカルデータの量を削減することを提案する。
本手法では, 局所データの特徴により敏感な部分と, 一般特徴抽出のための下位部分と, 上位部分とにモデルを分割する。
実験の結果,クライアントデータの特徴をグローバルモデルに転送できる地域データは1%未満であることがわかった。
論文 参考訳(メタデータ) (2021-11-05T14:07:06Z) - Federated Learning from Small Datasets [48.879172201462445]
フェデレーション学習は、複数のパーティが、ローカルデータを共有せずに、共同モデルを共同でトレーニングすることを可能にする。
そこで本研究では,局所モデルの置換とモデルアグリゲーションを連動させる新しい手法を提案する。
置換は、各ローカルモデルをローカルデータセットのデージーチェーンに公開することで、データスパースドメインでのより効率的なトレーニングを実現する。
論文 参考訳(メタデータ) (2021-10-07T13:49:23Z) - Federated Multi-Task Learning under a Mixture of Distributions [10.00087964926414]
Federated Learning(FL)は、機械学習モデルのデバイス上での協調トレーニングのためのフレームワークである。
FLにおける最初の取り組みは、クライアント間で平均的なパフォーマンスを持つ単一のグローバルモデルを学ぶことに焦点を当てたが、グローバルモデルは、与えられたクライアントに対して任意に悪いかもしれない。
我々は,各局所データ分布が未知の基底分布の混合であるというフレキシブルな仮定の下で,フェデレーションMTLについて検討した。
論文 参考訳(メタデータ) (2021-08-23T15:47:53Z) - WAFFLe: Weight Anonymized Factorization for Federated Learning [88.44939168851721]
データが機密性やプライベート性を持つドメインでは、ローカルデバイスを離れることなく、分散的に学習できるメソッドには大きな価値があります。
本稿では,フェデレートラーニングのためのウェイト匿名化因子化(WAFFLe)を提案する。これは,インド・バフェット・プロセスとニューラルネットワークの重み要因の共有辞書を組み合わせたアプローチである。
論文 参考訳(メタデータ) (2020-08-13T04:26:31Z) - Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。
種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。
また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文 参考訳(メタデータ) (2020-03-18T07:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。