論文の概要: CMOB: Large-Scale Cancer Multi-Omics Benchmark with Open Datasets, Tasks, and Baselines
- arxiv url: http://arxiv.org/abs/2409.02143v1
- Date: Mon, 2 Sep 2024 22:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 21:50:21.103491
- Title: CMOB: Large-Scale Cancer Multi-Omics Benchmark with Open Datasets, Tasks, and Baselines
- Title(参考訳): CMOB: オープンデータセット、タスク、ベースラインを備えた大規模がんマルチオミクスベンチマーク
- Authors: Ziwei Yang, Rikuto Kotoge, Zheng Chen, Xihao Piao, Yasuko Matsubara, Yasushi Sakurai,
- Abstract要約: CMOBはTCGAプラットフォームを統合する最初の大規模がんマルチオミクスベンチマークである。
CMOBは、よく処理されたデータセットバージョンを提供し、4つの研究で20の有意義なタスクをサポートする。
本研究の目的は, パーソナライズされたがん治療のための機械学習モデルの開発, 検証, 臨床翻訳を高速化することである。
- 参考スコア(独自算出の注目度): 7.9722811306493115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning has shown great potential in the field of cancer multi-omics studies, offering incredible opportunities for advancing precision medicine. However, the challenges associated with dataset curation and task formulation pose significant hurdles, especially for researchers lacking a biomedical background. Here, we introduce the CMOB, the first large-scale cancer multi-omics benchmark integrates the TCGA platform, making data resources accessible and usable for machine learning researchers without significant preparation and expertise.To date, CMOB includes a collection of 20 cancer multi-omics datasets covering 32 cancers, accompanied by a systematic data processing pipeline. CMOB provides well-processed dataset versions to support 20 meaningful tasks in four studies, with a collection of benchmarks. We also integrate CMOB with two complementary resources and various biological tools to explore broader research avenues.All resources are open-accessible with user-friendly and compatible integration scripts that enable non-experts to easily incorporate this complementary information for various tasks. We conduct extensive experiments on selected datasets to offer recommendations on suitable machine learning baselines for specific applications. Through CMOB, we aim to facilitate algorithmic advances and hasten the development, validation, and clinical translation of machine-learning models for personalized cancer treatments. CMOB is available on GitHub (\url{https://github.com/chenzRG/Cancer-Multi-Omics-Benchmark}).
- Abstract(参考訳): 機械学習は、がんのマルチオミクス研究の分野で大きな可能性を秘めており、精度医学を進歩させる素晴らしい機会を提供している。
しかし、データセットのキュレーションやタスクの定式化に関連する課題は、特に医学的背景を持たない研究者にとって大きなハードルとなる。
ここでは,TGAプラットフォームを統合した最初の大規模がんマルチオミクスベンチマークであるCMOBを紹介した。これにより,データリソースを,十分な準備や専門知識のない機械学習研究者が利用できるようにし,これまでに,32のがんをカバーする20のがんマルチオミクスデータセットのコレクションと,体系的なデータ処理パイプラインが付属する。
CMOBは、よく処理されたデータセットバージョンを提供し、4つの研究で20の有意義なタスクをサポートする。
また、CMOBを2つの補完的なリソースと様々な生物学的ツールと統合し、より広範な研究の道を探り、全てのリソースは、ユーザフレンドリで互換性のある統合スクリプトでオープンアクセス可能であり、非専門家が様々なタスクにこの補完的な情報を簡単に組み込めるようにします。
選択したデータセットに対して広範な実験を行い、特定のアプリケーションに適した機械学習ベースラインを推奨します。
CMOBを通じて,パーソナライズされたがん治療のための機械学習モデルの開発,検証,臨床翻訳を促進することを目的としている。
CMOBはGitHubで入手できる(\url{https://github.com/chenzRG/Cancer-Multi-Omics-Benchmark})。
関連論文リスト
- Multi-Omic and Quantum Machine Learning Integration for Lung Subtypes Classification [0.0]
量子コンピューティングと機械学習の融合は、マルチオミクスデータセット内の複雑なパターンを解き放つことを約束している。
我々は,バイオマーカー発見の可能性を秘めたLUADデータセットとLUSCデータセットの最適な識別方法を開発した。
論文 参考訳(メタデータ) (2024-10-02T23:16:31Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Supervised Multiple Kernel Learning approaches for multi-omics data integration [1.3032276477872158]
マルチカーネル学習(MKL)は、マルチオミクス入力の多様な性質を考える上で、柔軟で有効なアプローチであることが示されている。
我々は、異なるカーネル融合戦略に基づく新しいMKLアプローチを提供する。
その結果、MKLベースのモデルは、より複雑で最先端の教師付きマルチオミクス積分アプローチと競合することを示した。
論文 参考訳(メタデータ) (2024-03-27T08:48:16Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - DeepMediX: A Deep Learning-Driven Resource-Efficient Medical Diagnosis
Across the Spectrum [15.382184404673389]
この作業では,この課題に大きく対処する,画期的な,リソース効率の高いモデルである textttDeepMediX が紹介されている。
MobileNetV2アーキテクチャ上に構築されたDeepMediXは、脳MRIスキャンと皮膚がん画像の分類に長けている。
DeepMediXの設計にはフェデレートラーニングの概念も含まれている。
論文 参考訳(メタデータ) (2023-07-01T12:30:58Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z) - Multimodal Learning for Multi-Omics: A Survey [4.15790071124993]
統合的マルチオミクス分析のためのマルチモーダル学習は、研究者や実践者が人間の病気に対する深い洞察を得るのに役立つ。
しかし、簡単にアクセスできるオープンソースツールなど、この分野の開発を妨げる課題がいくつかある。
この調査は、いくつかの新しい視点から、データの課題、融合アプローチ、データセット、ソフトウェアツールの最新の概要を提供することを目的としている。
論文 参考訳(メタデータ) (2022-11-29T12:08:06Z) - SEMPAI: a Self-Enhancing Multi-Photon Artificial Intelligence for
prior-informed assessment of muscle function and pathology [48.54269377408277]
本稿では,仮説駆動型先行処理をデータ駆動型ディープラーニングアプローチに統合した,SEMPAI(Self-Enhancing Multi-Photon Artificial Intelligence)を紹介する。
SEMPAIは、小さなデータセットの予測を可能にするために、いくつかのタスクを共同で学習する。
SEMPAIは、少ないデータを含む7つの予測タスクのうち6つにおいて、最先端のバイオマーカーよりも優れています。
論文 参考訳(メタデータ) (2022-10-28T17:03:04Z) - Therapeutics Data Commons: Machine Learning Datasets and Tasks for
Therapeutics [84.94299203422658]
Therapeutics Data Commonsは、治療の全範囲にわたる機械学習を体系的にアクセスし、評価するためのフレームワークです。
TDCは、アルゴリズムの革新をバイオメディカルおよび臨床実装に翻訳できる、キュレートされたデータセットと学習タスクのコレクションです。
tdcはまた、データ機能、体系的モデル評価のための戦略、有意義なデータ分割、データプロセッサ、分子生成オラクルを含む、ツール、ライブラリ、リーダーボード、コミュニティリソースのエコシステムを提供する。
論文 参考訳(メタデータ) (2021-02-18T18:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。