論文の概要: RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis
- arxiv url: http://arxiv.org/abs/2404.16754v1
- Date: Thu, 25 Apr 2024 17:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:01:06.720455
- Title: RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis
- Title(参考訳): RadGenome-Chest CT:胸部CT解析のための接地型視線画像データセット
- Authors: Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Jiayu Lei, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
- 参考スコア(独自算出の注目度): 56.57177181778517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing generalist foundation model has recently attracted tremendous attention among researchers in the field of AI for Medicine (AI4Medicine). A pivotal insight in developing these models is their reliance on dataset scaling, which emphasizes the requirements on developing open-source medical image datasets that incorporate diverse supervision signals across various imaging modalities. In this paper, we introduce RadGenome-Chest CT, a comprehensive, large-scale, region-guided 3D chest CT interpretation dataset based on CT-RATE. Specifically, we leverage the latest powerful universal segmentation and large language models, to extend the original datasets (over 25,692 non-contrast 3D chest CT volume and reports from 20,000 patients) from the following aspects: (i) organ-level segmentation masks covering 197 categories, which provide intermediate reasoning visual clues for interpretation; (ii) 665 K multi-granularity grounded reports, where each sentence of the report is linked to the corresponding anatomical region of CT volume in the form of a segmentation mask; (iii) 1.3 M grounded VQA pairs, where questions and answers are all linked with reference segmentation masks, enabling models to associate visual evidence with textual explanations. All grounded reports and VQA pairs in the validation set have gone through manual verification to ensure dataset quality. We believe that RadGenome-Chest CT can significantly advance the development of multimodal medical foundation models, by training to generate texts based on given segmentation regions, which is unattainable with previous relevant datasets. We will release all segmentation masks, grounded reports, and VQA pairs to facilitate further research and development in this field.
- Abstract(参考訳): AI4メディシン(AI4Medicine)の分野の研究者の間では、ジェネラリスト基盤モデルの開発が注目されている。
これらのモデルの開発における重要な洞察は、データセットのスケーリングへの依存であり、さまざまな画像モダリティにまたがる多様な監視信号を含む、オープンソースの医療画像データセットの開発に必要な要件を強調している。
本稿では,CT-RATEに基づく大規模3次元胸部CT解析データセットであるRadGenome-Chest CTを紹介する。
具体的には、最新の強力なユニバーサルセグメンテーションと大規模言語モデルを活用し、元のデータセット(25,692件の非造影3D胸部CTボリュームと2万件の患者からの報告)を以下の側面から拡張する。
一 解釈のための中間的推論視覚的手がかりを提供する197のカテゴリーを包含するオルガンレベルのセグメンテーションマスク
(二)分割マスクの形で、報告書の各文が対応するCTボリュームの解剖学的領域に関連づけられた報告を六六六五K件の多粒性接地報告
(iii)1.3Mの接地されたVQAペアでは、質問と回答がすべて参照セグメンテーションマスクにリンクされ、モデルが視覚的証拠とテキスト的説明を関連付けることができる。
検証セットのすべての基盤となるレポートとVQAペアは、データセットの品質を保証するために、手作業による検証を経ている。
我々はRadGenome-Chest CTが、既存のデータセットでは達成不可能な、与えられたセグメンテーション領域に基づいてテキストを生成する訓練により、マルチモーダル医療基盤モデルの開発を著しく前進させることができると信じている。
この分野のさらなる研究と開発を促進するため、すべてのセグメンテーションマスク、接地レポート、VQAペアをリリースする。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
10のモダリティで2500万枚以上の画像をカバーしており、65以上の疾患に対する多彩なアノテーションがある。
画像テキストペアの可用性によって制限された既存のアプローチとは異なり、私たちは最初の自動パイプラインを開発しました。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography [1.8424705673580284]
我々は3次元医用画像と対応するテキストレポートとをマッチングする最初のデータセットであるCT-RATEを紹介する。
我々はCTに焦点を当てたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
我々は3次元胸部CTボリュームのための視覚言語基礎チャットモデルであるCT-CHATを作成する。
論文 参考訳(メタデータ) (2024-03-26T16:19:56Z) - GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。
提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2024-03-12T02:09:39Z) - Visual Grounding of Whole Radiology Reports for 3D CT Images [12.071135670684013]
今回,CT画像用に設計された最初の視覚的接地フレームワークについて紹介し,様々な身体部位と多様な異常タイプをカバーするペアを報告する。
本フレームワークは, 画像の解剖学的セグメント化と, レポート構造化の2つの構成要素を組み合わせたものである。
7,321名のユニークな患者を対象に,地域記述対応アノテーションを用いた大規模データセットを構築した。
論文 参考訳(メタデータ) (2023-12-08T02:09:17Z) - Complex Organ Mask Guided Radiology Report Generation [13.96983438709763]
我々は,複合臓器マスクガイド(COMG)レポート生成モデルを提案する。
融合過程において各臓器に対応する疾患の事前知識を活用し,疾患の同定フェーズを増強する。
2つの公開データセットの結果、COMGはSOTAモデルKiUTよりもBLEU@4スコアで11.4%と9.7%改善している。
論文 参考訳(メタデータ) (2023-11-04T05:34:24Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。