論文の概要: Insights into the Unknown: Federated Data Diversity Analysis on Molecular Data
- arxiv url: http://arxiv.org/abs/2510.19535v1
- Date: Wed, 22 Oct 2025 12:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.765065
- Title: Insights into the Unknown: Federated Data Diversity Analysis on Molecular Data
- Title(参考訳): 未知への洞察: 分子データに関するフェデレーションデータ多様性分析
- Authors: Markus Bujotzek, Evelyn Trautmann, Calum Hand, Ian Hales,
- Abstract要約: フェデレートラーニング(FL)は、プライベートデータをプライバシ保護、データサイロ間の協調モデルトレーニングに統合する、有望なアプローチを提供する。
我々は、Federated kMeans(Fed-kMeans)、Fed-PCA+Fed-kMeans(Fed-PCA+Fed-kMeans)と組み合わせたFederated principal Component Analysis(Fed-PCA+Fed-kMeans)、Federated Locality-Sensitive Hashing(Fed-LSH)の3つのアプローチを8つの異なる分子データセット上の集中的なアプローチに対してベンチマークした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI methods are increasingly shaping pharmaceutical drug discovery. However, their translation to industrial applications remains limited due to their reliance on public datasets, lacking scale and diversity of proprietary pharmaceutical data. Federated learning (FL) offers a promising approach to integrate private data into privacy-preserving, collaborative model training across data silos. This federated data access complicates important data-centric tasks such as estimating dataset diversity, performing informed data splits, and understanding the structure of the combined chemical space. To address this gap, we investigate how well federated clustering methods can disentangle and represent distributed molecular data. We benchmark three approaches, Federated kMeans (Fed-kMeans), Federated Principal Component Analysis combined with Fed-kMeans (Fed-PCA+Fed-kMeans), and Federated Locality-Sensitive Hashing (Fed-LSH), against their centralized counterparts on eight diverse molecular datasets. Our evaluation utilizes both, standard mathematical and a chemistry-informed evaluation metrics, SF-ICF, that we introduce in this work. The large-scale benchmarking combined with an in-depth explainability analysis shows the importance of incorporating domain knowledge through chemistry-informed metrics, and on-client explainability analyses for federated diversity analysis on molecular data.
- Abstract(参考訳): AIの手法は、医薬品の発見をますます形作っている。
しかし、それらの産業用アプリケーションへの翻訳は、公開データセットへの依存や、独自製薬データの規模や多様性に欠けるため、依然として制限されている。
フェデレートラーニング(FL)は、プライベートデータをプライバシ保護、データサイロ間の協調モデルトレーニングに統合する、有望なアプローチを提供する。
このフェデレートされたデータアクセスは、データセットの多様性の推定、インフォームドデータ分割の実行、結合した化学空間の構造の理解など、重要なデータ中心のタスクを複雑化する。
このギャップに対処するために,フェデレーションクラスタリング手法が分散分子データの分散化・分散化にどの程度役立つかを検討する。
我々は、Federated kMeans(Fed-kMeans)、Federated principal Component Analysis(Fed-PCA+Fed-kMeans)、Federated Locality-Sensitive Hashing(Fed-LSH)の3つのアプローチを8つの多様な分子データセットに対してベンチマークした。
本研究で導入した標準数学および化学インフォームド評価指標であるSF-ICFを用いて評価を行った。
大規模ベンチマークと詳細な説明可能性分析を組み合わせることで、化学インフォームドメトリクスによるドメイン知識の導入の重要性が示される。
関連論文リスト
- A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Federated brain tumor segmentation: an extensive benchmark [2.515027627030043]
本稿では,この課題における3つのクラスすべてからのフェデレーション学習アルゴリズムの広範なベンチマークを提案する。
各カテゴリのいくつかの手法は、若干の性能改善をもたらし、フェデレーションの圧倒的なデータ分布に対する最終モデル(s)バイアスを制限する可能性があることを示す。
論文 参考訳(メタデータ) (2024-10-07T09:32:19Z) - Federated Impression for Learning with Distributed Heterogeneous Data [19.50235109938016]
フェデレートラーニング(FL)は、データを共有することなく、クライアント間で分散データセットから学習できるパラダイムを提供する。
FLでは、データ収集プロトコルや患者人口の多様さにより、異なる保健所のデータに準最適収束が一般的である。
我々は,グローバル情報を表す合成データをフェデレーションとして復元することで,破滅的な忘れを緩和するFedImpresを提案する。
論文 参考訳(メタデータ) (2024-09-11T15:37:52Z) - Privacy-Preserving Multi-Center Differential Protein Abundance Analysis with FedProt [1.0691609140312175]
FedProtは、分散データの協調微分タンパク質量分析のための最初のプライバシ保護ツールである。
プールデータに適用されたDECMSに匹敵する精度を達成し、絶対差を完全に無視できる。
FedProtはWebツールとして利用可能で、FeatureCloud Appとして詳細なドキュメントが提供されている。
論文 参考訳(メタデータ) (2024-07-21T17:09:20Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Neural FIM for learning Fisher Information Metrics from point cloud data [71.07939200676199]
我々は、ポイントクラウドデータからフィッシャー情報量(FIM)を計算するためのニューラルFIMを提案する。
本稿では,PHATE可視化手法のパラメータの選択と,IPSCリプログラミングとPBMC(免疫細胞)の2つの単一セルデータセットと,おもちゃデータセットの分岐点とクラスタセンターの埋め込みに関する情報を得る能力について述べる。
論文 参考訳(メタデータ) (2023-06-01T17:36:13Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。