論文の概要: HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models
- arxiv url: http://arxiv.org/abs/2405.07460v5
- Date: Wed, 27 Aug 2025 14:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 14:51:02.850336
- Title: HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models
- Title(参考訳): HoneyBee: 基本埋め込みモデルによるマルチモーダルオンコロジーデータセット作成のためのスケーラブルなモジュールフレームワーク
- Authors: Aakash Tripathi, Asim Waqas, Matthew B. Schabath, Yasin Yilmaz, Ghulam Rasool,
- Abstract要約: HONeYBEEは、腫瘍学の応用のために、マルチモーダルなバイオメディカルデータを統合したオープンソースのフレームワークである。
臨床データ(構造化および非構造化)、全スライダー画像、放射線スキャン、分子プロファイルを処理し、統合された患者レベルの埋め込みを生成する。
これらの埋め込みは生存予測、がん型の分類、患者の類似性検索、コホートクラスタリングを可能にする。
- 参考スコア(独自算出の注目度): 11.03503711055749
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: HONeYBEE (Harmonized ONcologY Biomedical Embedding Encoder) is an open-source framework that integrates multimodal biomedical data for oncology applications. It processes clinical data (structured and unstructured), whole-slide images, radiology scans, and molecular profiles to generate unified patient-level embeddings using domain-specific foundation models and fusion strategies. These embeddings enable survival prediction, cancer-type classification, patient similarity retrieval, and cohort clustering. Evaluated on 11,400+ patients across 33 cancer types from The Cancer Genome Atlas (TCGA), clinical embeddings showed the strongest single-modality performance with 98.5% classification accuracy and 96.4% precision@10 in patient retrieval. They also achieved the highest survival prediction concordance indices across most cancer types. Multimodal fusion provided complementary benefits for specific cancers, improving overall survival prediction beyond clinical features alone. Comparative evaluation of four large language models revealed that general-purpose models like Qwen3 outperformed specialized medical models for clinical text representation, though task-specific fine-tuning improved performance on heterogeneous data such as pathology reports.
- Abstract(参考訳): HONeYBEE (Harmonized OncologY Biomedical Embedding Encoder) は、腫瘍学応用のためのマルチモーダルバイオメディカルデータを統合したオープンソースのフレームワークである。
臨床データ(構造化および非構造化)、全スライディング画像、放射線スキャン、分子プロファイルを処理し、ドメイン固有の基礎モデルと融合戦略を用いて統合された患者レベルの埋め込みを生成する。
これらの埋め込みは生存予測、がん型の分類、患者の類似性検索、コホートクラスタリングを可能にする。
The Cancer Genome Atlas (TCGA) の33種類の癌に対して11,400人以上の患者に評価され、臨床埋め込みは98.5%の分類精度と96.4%の精度で、最も高い単一モダリティ性能を示した。
彼らはまた、多くのがん種で最も生存率の高い予測基準を達成した。
マルチモーダル・フュージョンは特定の癌に対して相補的な利点を与え、臨床像以外の生存率予測を改善した。
4つの大規模言語モデルの比較評価の結果,Qwen3のような汎用モデルは,臨床テキスト表現のための専門的な医療モデルよりも優れていたが,タスク固有の微調整により,病理報告などの異種データの性能が向上した。
関連論文リスト
- Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation [26.589728923739596]
マルチモーダル医療データ生成に特化して設計されたフレームワークを提案する。
多視点胸部X線の発生と臨床報告により、汎用視覚言語モデルと医療の専門的要件とのギャップを埋める。
我々のフレームワークは、下流疾患分類タスクの実際のデータと比較して、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:07:24Z) - Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。
これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。
本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (2025-03-03T22:42:00Z) - MedCoDi-M: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation [22.908801443059758]
マルチモーダル医療データ生成モデルであるMedCoDi-Mを提案する。
MIMIC-CXRデータセット上の5つの競合と比較した。
MedCoDi-Mの医療分野における課題に対する有効性について検討した。
論文 参考訳(メタデータ) (2025-01-08T16:53:56Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - MedPix 2.0: A Comprehensive Multimodal Biomedical Dataset for Advanced AI Applications [0.0]
本稿では、データセットMedPix 2.0を構築するためのワークフロー全体について説明する。
データセットとともに、MongoDBインスタンスを効率的にナビゲートするためのGUIを開発しました。
また、分類タスクをスキャンするために、MedPix 2.0でトレーニングされたCLIPベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:49:21Z) - A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data [41.8344712915454]
本調査では,最新の研究で開発された重要なテクニックを要約し,ディープラーニングに基づくレポート生成のための一般的なワークフローを提案する。
本研究の目的は,臨床報告の自動生成と医用画像解析に関心のある研究者に対して,包括的で豊富な情報を提供することである。
論文 参考訳(メタデータ) (2024-05-21T14:37:35Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - medigan: A Python Library of Pretrained Generative Models for Enriched
Data Access in Medical Imaging [3.8568465270960264]
mediganは、オープンソースのフレームワークに依存しないPythonライブラリとして実装された、事前訓練された生成モデルのワンストップショップである。
研究者や開発者は、ほんの数行のコードでトレーニングデータを作成し、拡大し、ドメインに適応することができる。
ライブラリのスケーラビリティと設計は、統合され、容易に利用できる事前訓練された生成モデルの増加によって実証される。
論文 参考訳(メタデータ) (2022-09-28T23:45:33Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。