論文の概要: Data Collaboration Analysis applied to Compound Datasets and the
Introduction of Projection data to Non-IID settings
- arxiv url: http://arxiv.org/abs/2308.00280v1
- Date: Tue, 1 Aug 2023 04:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:33:28.739671
- Title: Data Collaboration Analysis applied to Compound Datasets and the
Introduction of Projection data to Non-IID settings
- Title(参考訳): 複合データセットに適用したデータ協調分析と非iid設定への投影データの導入
- Authors: Akihiro Mizoguchi, Anna Bogdanova, Akira Imakura, and Tetsuya Sakurai
- Abstract要約: フェデレートラーニングは複合データセットに適用され、予測精度を高めつつ、潜在的にプロプライエタリな情報を保護している。
データ協調分析(DCPd)と呼ばれる,オープンソースからの化学合成データに対する分散機械学習の代替手法を提案する。
DCPdはラベルバイアスの程度が異なる実験では分類精度が無視できる低下を示した。
- 参考スコア(独自算出の注目度): 6.037276428689637
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given the time and expense associated with bringing a drug to market,
numerous studies have been conducted to predict the properties of compounds
based on their structure using machine learning. Federated learning has been
applied to compound datasets to increase their prediction accuracy while
safeguarding potentially proprietary information. However, federated learning
is encumbered by low accuracy in not identically and independently distributed
(non-IID) settings, i.e., data partitioning has a large label bias, and is
considered unsuitable for compound datasets, which tend to have large label
bias. To address this limitation, we utilized an alternative method of
distributed machine learning to chemical compound data from open sources,
called data collaboration analysis (DC). We also proposed data collaboration
analysis using projection data (DCPd), which is an improved method that
utilizes auxiliary PubChem data. This improves the quality of individual
user-side data transformations for the projection data for the creation of
intermediate representations. The classification accuracy, i.e., area under the
curve in the receiver operating characteristic curve (ROC-AUC) and AUC in the
precision-recall curve (PR-AUC), of federated averaging (FedAvg), DC, and DCPd
was compared for five compound datasets. We determined that the machine
learning performance for non-IID settings was in the order of DCPd, DC, and
FedAvg, although they were almost the same in identically and independently
distributed (IID) settings. Moreover, the results showed that compared to other
methods, DCPd exhibited a negligible decline in classification accuracy in
experiments with different degrees of label bias. Thus, DCPd can address the
low performance in non-IID settings, which is one of the challenges of
federated learning.
- Abstract(参考訳): 薬物の市場投入にかかる時間と費用を考えると、機械学習を用いてその構造に基づく化合物の性質を予測するための研究が数多く行われている。
フェデレーション学習は、予測精度を高めるために複合データセットに適用され、潜在的にプロプライエタリな情報を保護している。
しかし、フェデレートされた学習は、同一かつ独立に分散されていない(非IID)設定、すなわち、データのパーティショニングは大きなラベルバイアスを持ち、大きなラベルバイアスを持つ傾向がある複合データセットには適さないと考えられている。
この制限に対処するために、我々は分散機械学習の代替手法を用いて、DC(Data collaboration analysis)と呼ばれるオープンソースからの複合データを化学化した。
また、補助的なPubChemデータを利用した改良手法であるプロジェクションデータ(DCPd)を用いたデータ協調分析も提案した。
これにより、中間表現の作成のための投影データに対する個々のユーザ側データ変換の品質が向上する。
フェデレーション平均化法(federated averaging, fedavg, dc, dcpd)の受信者動作特性曲線(roc-auc)と精度リコール曲線(pr-auc)におけるaucの分類精度を5つの複合データセットで比較した。
非IID設定の機械学習性能はDCPd,DC,FedAvgの順であるが,同一かつ独立に分散したIID設定ではほぼ同じであった。
また, 他の手法と比較して, ラベルバイアスの程度が異なる実験において, dcpdは分類精度が無視できない低下を示した。
このように、dcpdは、連合学習の課題の一つである非iid設定における低パフォーマンスに対処することができる。
関連論文リスト
- Dataset Distillation-based Hybrid Federated Learning on Non-IID Data [19.01147151081893]
本稿では,データセット蒸留を統合して,独立および等分散(IID)データを生成するハイブリッド・フェデレーション学習フレームワークHFLDDを提案する。
クライアントを異種クラスタに分割し、クラスタ内の異なるクライアント間でのデータラベルがバランスが取れないようにします。
このトレーニングプロセスは、従来のIDデータに対するフェデレーション学習に似ているため、モデルトレーニングにおける非IIDデータの影響を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-26T03:52:41Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - FedSLD: Federated Learning with Shared Label Distribution for Medical
Image Classification [6.0088002781256185]
分類タスクのための共有ラベル分布(FedSLD)を用いたフェデレートラーニングを提案する。
FedSLDは、分布の知識が与えられた場合、最適化中に各データサンプルの局所的な目的への貢献を調整する。
その結果,FedSLDは従来のFL最適化アルゴリズムよりもコンバージェンス性能が高いことがわかった。
論文 参考訳(メタデータ) (2021-10-15T21:38:25Z) - An Experimental Study of Data Heterogeneity in Federated Learning
Methods for Medical Imaging [8.984706828657814]
フェデレーション学習は、複数の機関が、プライバシー保護の方法で、ローカルデータ上で機械学習モデルを協調的にトレーニングすることを可能にする。
本研究では,データ不均一性の分類体系が,量スキュー,ラベル分布スキュー,画像取得スキューなどのフェデレーション学習方法に与える影響について検討した。
本稿では,データ量スキューの重み付き平均値,重み付き損失量,ラベル分布スキューのバッチ正規化平均値など,データの不均一性からの性能低下を克服するいくつかの緩和策を提案する。
論文 参考訳(メタデータ) (2021-07-18T05:47:48Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。