論文の概要: MLOmics: Benchmark for Machine Learning on Cancer Multi-Omics Data
- arxiv url: http://arxiv.org/abs/2409.02143v2
- Date: Mon, 03 Mar 2025 12:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:03:49.078204
- Title: MLOmics: Benchmark for Machine Learning on Cancer Multi-Omics Data
- Title(参考訳): MLOmics: がんマルチオミクスデータの機械学習ベンチマーク
- Authors: Ziwei Yang, Rikuto Kotoge, Xihao Piao, Zheng Chen, Lingwei Zhu, Peng Gao, Yasuko Matsubara, Yasushi Sakurai, Jimeng Sun,
- Abstract要約: MLOmicsは、バイオインフォマティクスと機械学習モデルの開発と評価を改善することを目的とした、オープン癌マルチオミクスベンチマークである。
MLOmicsには8,314人の患者サンプルがあり、4つのオミクスタイプ、層状特徴、広範囲なベースラインを持つ32種類の癌をカバーしている。
- 参考スコア(独自算出の注目度): 32.991965302713055
- License:
- Abstract: Framing the investigation of diverse cancers as a machine learning problem has recently shown significant potential in multi-omics analysis and cancer research. Empowering these successful machine learning models are the high-quality training datasets with sufficient data volume and adequate preprocessing. However, while there exist several public data portals including The Cancer Genome Atlas (TCGA) multi-omics initiative or open-bases such as the LinkedOmics, these databases are not off-the-shelf for existing machine learning models. In this paper we propose MLOmics, an open cancer multi-omics benchmark aiming at serving better the development and evaluation of bioinformatics and machine learning models. MLOmics contains 8,314 patient samples covering all 32 cancer types with four omics types, stratified features, and extensive baselines. Complementary support for downstream analysis and bio-knowledge linking are also included to support interdisciplinary analysis.
- Abstract(参考訳): 機械学習問題としての多様ながんの研究のフレームは、最近、マルチオミクス分析とがん研究において大きな可能性を示唆している。
これらの成功した機械学習モデルを活用することは、十分なデータボリュームと適切な事前処理を備えた高品質なトレーニングデータセットである。
しかしながら、The Cancer Genome Atlas(TCGA)マルチオミクスイニシアチブやLinkedOmicsのようなオープンベースなど、いくつかの公開データポータルが存在するが、これらのデータベースは既存の機械学習モデルにとって既製のものではない。
本稿では,バイオインフォマティクスと機械学習モデルの開発と評価を改善することを目的とした,オープン癌マルチオミクスベンチマークであるMLOmicsを提案する。
MLOmicsには8,314人の患者サンプルがあり、4つのオミクスタイプ、層状特徴、広範囲なベースラインを持つ32種類の癌をカバーしている。
下流分析と生物知識リンクの補完的サポートも、学際的分析をサポートするために含まれている。
関連論文リスト
- Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Multi-Omic and Quantum Machine Learning Integration for Lung Subtypes Classification [0.0]
量子コンピューティングと機械学習の融合は、マルチオミクスデータセット内の複雑なパターンを解き放つことを約束している。
我々は,バイオマーカー発見の可能性を秘めたLUADデータセットとLUSCデータセットの最適な識別方法を開発した。
論文 参考訳(メタデータ) (2024-10-02T23:16:31Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Supervised Multiple Kernel Learning approaches for multi-omics data integration [1.3032276477872158]
マルチカーネル学習(MKL)は、マルチオミクス入力の多様な性質を考える上で、柔軟で有効なアプローチであることが示されている。
我々は、異なるカーネル融合戦略に基づく新しいMKLアプローチを提供する。
その結果、MKLベースのモデルは、より複雑で最先端の教師付きマルチオミクス積分アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-27T08:48:16Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - DeepMediX: A Deep Learning-Driven Resource-Efficient Medical Diagnosis
Across the Spectrum [15.382184404673389]
この作業では,この課題に大きく対処する,画期的な,リソース効率の高いモデルである textttDeepMediX が紹介されている。
MobileNetV2アーキテクチャ上に構築されたDeepMediXは、脳MRIスキャンと皮膚がん画像の分類に長けている。
DeepMediXの設計にはフェデレートラーニングの概念も含まれている。
論文 参考訳(メタデータ) (2023-07-01T12:30:58Z) - Multimodal Learning for Multi-Omics: A Survey [4.15790071124993]
統合的マルチオミクス分析のためのマルチモーダル学習は、研究者や実践者が人間の病気に対する深い洞察を得るのに役立つ。
しかし、簡単にアクセスできるオープンソースツールなど、この分野の開発を妨げる課題がいくつかある。
この調査は、いくつかの新しい視点から、データの課題、融合アプローチ、データセット、ソフトウェアツールの最新の概要を提供することを目的としている。
論文 参考訳(メタデータ) (2022-11-29T12:08:06Z) - SEMPAI: a Self-Enhancing Multi-Photon Artificial Intelligence for
prior-informed assessment of muscle function and pathology [48.54269377408277]
本稿では,仮説駆動型先行処理をデータ駆動型ディープラーニングアプローチに統合した,SEMPAI(Self-Enhancing Multi-Photon Artificial Intelligence)を紹介する。
SEMPAIは、小さなデータセットの予測を可能にするために、いくつかのタスクを共同で学習する。
SEMPAIは、少ないデータを含む7つの予測タスクのうち6つにおいて、最先端のバイオマーカーよりも優れています。
論文 参考訳(メタデータ) (2022-10-28T17:03:04Z) - Therapeutics Data Commons: Machine Learning Datasets and Tasks for
Therapeutics [84.94299203422658]
Therapeutics Data Commonsは、治療の全範囲にわたる機械学習を体系的にアクセスし、評価するためのフレームワークです。
TDCは、アルゴリズムの革新をバイオメディカルおよび臨床実装に翻訳できる、キュレートされたデータセットと学習タスクのコレクションです。
tdcはまた、データ機能、体系的モデル評価のための戦略、有意義なデータ分割、データプロセッサ、分子生成オラクルを含む、ツール、ライブラリ、リーダーボード、コミュニティリソースのエコシステムを提供する。
論文 参考訳(メタデータ) (2021-02-18T18:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。