論文の概要: MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
- arxiv url: http://arxiv.org/abs/2408.02900v1
- Date: Tue, 6 Aug 2024 02:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:19:13.585276
- Title: MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
- Title(参考訳): MedTrinity-25M : 医用マルチグラニュラーアノテーションを用いた大規模マルチモーダルデータセット
- Authors: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou,
- Abstract要約: 本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
10のモダリティで2500万枚以上の画像をカバーしており、65以上の疾患に対する多彩なアノテーションがある。
画像テキストペアの可用性によって制限された既存のアプローチとは異なり、私たちは最初の自動パイプラインを開発しました。
- 参考スコア(独自算出の注目度): 53.01393667775077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal dataset for medicine, covering over 25 million images across 10 modalities, with multigranular annotations for more than 65 diseases. These enriched annotations encompass both global textual information, such as disease/lesion type, modality, region-specific descriptions, and inter-regional relationships, as well as detailed local annotations for regions of interest (ROIs), including bounding boxes, segmentation masks. Unlike existing approach which is limited by the availability of image-text pairs, we have developed the first automated pipeline that scales up multimodal data by generating multigranular visual and texual annotations (in the form of image-ROI-description triplets) without the need for any paired text descriptions. Specifically, data from over 90 different sources have been collected, preprocessed, and grounded using domain-specific expert models to identify ROIs related to abnormal regions. We then build a comprehensive knowledge base and prompt multimodal large language models to perform retrieval-augmented generation with the identified ROIs as guidance, resulting in multigranular texual descriptions. Compared to existing datasets, MedTrinity-25M provides the most enriched annotations, supporting a comprehensive range of multimodal tasks such as captioning and report generation, as well as vision-centric tasks like classification and segmentation. Pretraining on MedTrinity-25M, our model achieves state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal large language models and other representative SoTA approaches. This dataset can also be utilized to support large-scale pre-training of multimodal medical AI models, contributing to the development of future foundation models in the medical domain.
- Abstract(参考訳): 本稿では,MedTrinity-25Mについて紹介する。MedTrinity-25Mは総合的かつ大規模な医療用マルチモーダルデータセットで,10つのモダリティにまたがる2500万以上の画像をカバーし,65以上の疾患に対する多彩なアノテーションを提供する。
これらの豊富なアノテーションは、病気/病気のタイプ、モダリティ、地域固有の記述、地域間関係などのグローバルなテキスト情報と、境界ボックス、セグメンテーションマスクを含む関心領域(ROI)の詳細なローカルアノテーションの両方を含んでいる。
画像-テキストペアの可用性によって制限される既存のアプローチとは異なり、我々は、ペアのテキスト記述を必要とせずに、多言語的な視覚的およびテクスチャ的なアノテーション(画像-ROI-記述三重項の形式で)を生成することで、マルチモーダルデータのスケールアップを行う最初の自動パイプラインを開発した。
具体的には、異常領域に関連するROIを特定するために、ドメイン固有の専門家モデルを使用して、90以上の異なるソースからのデータを収集し、前処理し、接地した。
次に、包括的知識ベースを構築し、マルチモーダルな大規模言語モデルに対して、特定されたROIをガイダンスとして検索拡張生成を実行させ、その結果、多言語的テクスチュアな記述をもたらす。
既存のデータセットと比較すると、MedTrinity-25Mは最もリッチなアノテーションを提供し、キャプションやレポート生成といった包括的なマルチモーダルタスクと、分類やセグメンテーションといったビジョン中心のタスクをサポートする。
MedTrinity-25Mの事前学習により,VQA-RADとPathVQAの最先端性能を達成し,マルチモーダルな大規模言語モデルと他の代表的SoTAアプローチを超越した。
このデータセットは、マルチモーダル医療AIモデルの大規模事前トレーニングをサポートするために利用することもできる。
関連論文リスト
- MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - A Refer-and-Ground Multimodal Large Language Model for Biomedicine [10.519866875035003]
Med-GRIT-270kデータセットは、バイオメディカルドメインに初めて専用のデータセットであり、参照と地上の会話を統合している。
本稿では,このデータセットとマルチタスク・インストラクション・ラーニングを用いて,バイオメディシンのためのRefer-and-Ground Multimodal Large Language Model(BiRD)を提案する。
論文 参考訳(メタデータ) (2024-06-26T07:56:17Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Large Scale Multi-Lingual Multi-Modal Summarization Dataset [26.92121230628835]
現在最大の多言語マルチモーダル要約データセット(M3LS)を提示する。
それは100万以上のドキュメントイメージペアのインスタンスと、それぞれに専門的な注釈付きマルチモーダル要約で構成されています。
また、13言語に対する最大の要約データセットであり、2言語に対する言語間要約データで構成されている。
論文 参考訳(メタデータ) (2023-02-13T18:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。