論文の概要: HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models
- arxiv url: http://arxiv.org/abs/2405.07460v3
- Date: Thu, 13 Jun 2024 16:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:06:20.294636
- Title: HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models
- Title(参考訳): HoneyBee: 基本埋め込みモデルによるマルチモーダルオンコロジーデータセット作成のためのスケーラブルなモジュールフレームワーク
- Authors: Aakash Tripathi, Asim Waqas, Yasin Yilmaz, Ghulam Rasool,
- Abstract要約: HoneyBeeは、マルチモーダルオンコロジーデータセットを構築するためのスケーラブルなモジュラーフレームワークである。
生の医療データに欠かせない特徴や関係を捉えた埋め込みを生成する。
HoneyBeeは、現在進行中のオープンソース活動であり、コード、データセット、モデルは、プロジェクトリポジトリで利用可能である。
- 参考スコア(独自算出の注目度): 17.774341783844026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing accurate machine learning models for oncology requires large-scale, high-quality multimodal datasets. However, creating such datasets remains challenging due to the complexity and heterogeneity of medical data. To address this challenge, we introduce HoneyBee, a scalable modular framework for building multimodal oncology datasets that leverages foundation models to generate representative embeddings. HoneyBee integrates various data modalities, including clinical diagnostic and pathology imaging data, medical notes, reports, records, and molecular data. It employs data preprocessing techniques and foundation models to generate embeddings that capture the essential features and relationships within the raw medical data. The generated embeddings are stored in a structured format using Hugging Face datasets and PyTorch dataloaders for accessibility. Vector databases enable efficient querying and retrieval for machine learning applications. We demonstrate the effectiveness of HoneyBee through experiments assessing the quality and representativeness of these embeddings. The framework is designed to be extensible to other medical domains and aims to accelerate oncology research by providing high-quality, machine learning-ready datasets. HoneyBee is an ongoing open-source effort, and the code, datasets, and models are available at the project repository.
- Abstract(参考訳): オンコロジーのための正確な機械学習モデルを開発するには、大規模で高品質なマルチモーダルデータセットが必要である。
しかし、医療データの複雑さと不均一性のため、そのようなデータセットの作成は依然として困難である。
この課題に対処するため、我々はHoneyBeeを紹介した。HoneyBeeはマルチモーダルオンコロジーデータセットを構築するためのスケーラブルなモジュラーフレームワークで、基礎モデルを活用して代表的な埋め込みを生成する。
HoneyBeeは、臨床診断や病理画像データ、医療ノート、レポート、記録、分子データなど、さまざまなデータモダリティを統合している。
データ前処理技術と基礎モデルを使用して、生の医療データの本質的な特徴と関係をキャプチャする埋め込みを生成する。
生成された埋め込みは、アクセシビリティのためにHugging FaceデータセットとPyTorchデータローダを使用して構造化形式で格納される。
ベクトルデータベースは機械学習アプリケーションの効率的なクエリと検索を可能にする。
これらの埋め込みの質と代表性を評価する実験を通じて,ハニービーの有効性を実証した。
このフレームワークは、他の医療領域に拡張可能なように設計されており、高品質で機械学習対応のデータセットを提供することで、腫瘍研究を加速することを目指している。
HoneyBeeは、現在進行中のオープンソース活動であり、コード、データセット、モデルは、プロジェクトリポジトリで利用可能である。
関連論文リスト
- Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - MedPix 2.0: A Comprehensive Multimodal Biomedical Dataset for Advanced AI Applications [0.0]
本稿では、データセットMedPix 2.0を構築するためのワークフロー全体について説明する。
データセットとともに、MongoDBインスタンスを効率的にナビゲートするためのGUIを開発しました。
また、分類タスクをスキャンするために、MedPix 2.0でトレーニングされたCLIPベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:49:21Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - medigan: A Python Library of Pretrained Generative Models for Enriched
Data Access in Medical Imaging [3.8568465270960264]
mediganは、オープンソースのフレームワークに依存しないPythonライブラリとして実装された、事前訓練された生成モデルのワンストップショップである。
研究者や開発者は、ほんの数行のコードでトレーニングデータを作成し、拡大し、ドメインに適応することができる。
ライブラリのスケーラビリティと設計は、統合され、容易に利用できる事前訓練された生成モデルの増加によって実証される。
論文 参考訳(メタデータ) (2022-09-28T23:45:33Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。