論文の概要: Visual Grounding of Whole Radiology Reports for 3D CT Images
- arxiv url: http://arxiv.org/abs/2312.04794v1
- Date: Fri, 8 Dec 2023 02:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:21:52.232803
- Title: Visual Grounding of Whole Radiology Reports for 3D CT Images
- Title(参考訳): 3次元CT画像における全身X線撮影
- Authors: Akimichi Ichinose, Taro Hatsutani, Keigo Nakamura, Yoshiro Kitamura,
Satoshi Iizuka, Edgar Simo-Serra, Shoji Kido, Noriyuki Tomiyama
- Abstract要約: 今回,CT画像用に設計された最初の視覚的接地フレームワークについて紹介し,様々な身体部位と多様な異常タイプをカバーするペアを報告する。
本フレームワークは, 画像の解剖学的セグメント化と, レポート構造化の2つの構成要素を組み合わせたものである。
7,321名のユニークな患者を対象に,地域記述対応アノテーションを用いた大規模データセットを構築した。
- 参考スコア(独自算出の注目度): 12.071135670684013
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building a large-scale training dataset is an essential problem in the
development of medical image recognition systems. Visual grounding techniques,
which automatically associate objects in images with corresponding
descriptions, can facilitate labeling of large number of images. However,
visual grounding of radiology reports for CT images remains challenging,
because so many kinds of anomalies are detectable via CT imaging, and resulting
report descriptions are long and complex. In this paper, we present the first
visual grounding framework designed for CT image and report pairs covering
various body parts and diverse anomaly types. Our framework combines two
components of 1) anatomical segmentation of images, and 2) report structuring.
The anatomical segmentation provides multiple organ masks of given CT images,
and helps the grounding model recognize detailed anatomies. The report
structuring helps to accurately extract information regarding the presence,
location, and type of each anomaly described in corresponding reports. Given
the two additional image/report features, the grounding model can achieve
better localization. In the verification process, we constructed a large-scale
dataset with region-description correspondence annotations for 10,410 studies
of 7,321 unique patients. We evaluated our framework using grounding accuracy,
the percentage of correctly localized anomalies, as a metric and demonstrated
that the combination of the anatomical segmentation and the report structuring
improves the performance with a large margin over the baseline model (66.0% vs
77.8%). Comparison with the prior techniques also showed higher performance of
our method.
- Abstract(参考訳): 医用画像認識システムの開発において,大規模なトレーニングデータセットの構築が不可欠である。
画像中のオブジェクトと対応する記述を自動的に関連付けるビジュアル接地技術は、多数の画像のラベリングを容易にする。
しかし,CT画像に対する画像診断では,CT画像から多くの異常が検出され,報告記述が長く複雑になるため,画像診断はいまだに困難である。
本稿では,ct画像とレポートペアを対象とし,様々な身体部位と多彩な異常タイプをカバーする最初の視覚接地フレームワークを提案する。
我々の枠組みは2つの要素を結合し
1)画像の解剖学的区分、および
2)報告の構造化
解剖学的セグメンテーションは、所定のct画像の複数の臓器マスクを提供し、詳細な解剖の認識を支援する。
レポート構造化は、対応するレポートに記述された各異常の有無、位置、種類に関する情報を正確に抽出するのに役立つ。
2つの追加のイメージ/レポート機能を考えると、接地モデルはより良いローカライゼーションを達成することができる。
検証プロセスでは,7,321人の患者を対象とした10,410件の地域記述対応アノテーションを用いた大規模データセットを構築した。
本手法は,接地精度,局所的異常率を指標として評価し,解剖学的セグメント化とレポート構造化の組み合わせにより,ベースラインモデルよりも大きなマージン(66.0%対77.8%)で性能が向上することを示した。
また,従来の手法との比較により,提案手法の性能が向上した。
関連論文リスト
- CTARR: A fast and robust method for identifying anatomical regions on CT images via atlas registration [0.09130220606101362]
我々はCT解剖学的領域認識のための新しい汎用手法であるCTARRを紹介する。
この方法は、ディープラーニングベースのCT画像解析パイプラインの事前処理ステップとして機能する。
提案手法は, アトラス登録に基づいて, 無ラベルCTスキャンから1つまたは複数の境界ボックスとして符号化された解剖学的領域を抽出する高速かつ堅牢な方法を提供する。
論文 参考訳(メタデータ) (2024-10-03T08:52:21Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer [4.672688418357066]
本稿では,雑音の存在下での頑健なセグメンテーションのためのトランスフォーマー拡散(DTS)モデルを提案する。
画像の形態的表現を解析する本モデルでは, 種々の医用画像モダリティにおいて, 従来のモデルよりも良好な結果が得られた。
論文 参考訳(メタデータ) (2024-08-01T07:35:54Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Unsupervised correspondence with combined geometric learning and imaging
for radiotherapy applications [0.0]
本研究の目的は, 放射線治療への応用において, 異なる患者の臓器区分間の対応点を正確に同定するモデルを開発することである。
3次元形状の同時対応と推定のためのモデルとして,頭部と頸部の臓器の分節をCTスキャンから訓練した。
次に、2つのアプローチを用いて画像情報を組み込むため、オリジナルモデルを拡張した。
論文 参考訳(メタデータ) (2023-09-25T16:29:18Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z) - Separation of target anatomical structure and occlusions in chest
radiographs [2.0478628221188497]
本稿では,無線画像から望ましくない視覚構造を抑圧する完全畳み込みネットワークを提案する。
提案アルゴリズムは高分解能CTスキャンから再構成されたラジオグラフィーと地上構造データを生成する。
論文 参考訳(メタデータ) (2020-02-03T14:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。