論文の概要: Visual Grounding of Whole Radiology Reports for 3D CT Images
- arxiv url: http://arxiv.org/abs/2312.04794v1
- Date: Fri, 8 Dec 2023 02:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:21:52.232803
- Title: Visual Grounding of Whole Radiology Reports for 3D CT Images
- Title(参考訳): 3次元CT画像における全身X線撮影
- Authors: Akimichi Ichinose, Taro Hatsutani, Keigo Nakamura, Yoshiro Kitamura,
Satoshi Iizuka, Edgar Simo-Serra, Shoji Kido, Noriyuki Tomiyama
- Abstract要約: 今回,CT画像用に設計された最初の視覚的接地フレームワークについて紹介し,様々な身体部位と多様な異常タイプをカバーするペアを報告する。
本フレームワークは, 画像の解剖学的セグメント化と, レポート構造化の2つの構成要素を組み合わせたものである。
7,321名のユニークな患者を対象に,地域記述対応アノテーションを用いた大規模データセットを構築した。
- 参考スコア(独自算出の注目度): 12.071135670684013
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building a large-scale training dataset is an essential problem in the
development of medical image recognition systems. Visual grounding techniques,
which automatically associate objects in images with corresponding
descriptions, can facilitate labeling of large number of images. However,
visual grounding of radiology reports for CT images remains challenging,
because so many kinds of anomalies are detectable via CT imaging, and resulting
report descriptions are long and complex. In this paper, we present the first
visual grounding framework designed for CT image and report pairs covering
various body parts and diverse anomaly types. Our framework combines two
components of 1) anatomical segmentation of images, and 2) report structuring.
The anatomical segmentation provides multiple organ masks of given CT images,
and helps the grounding model recognize detailed anatomies. The report
structuring helps to accurately extract information regarding the presence,
location, and type of each anomaly described in corresponding reports. Given
the two additional image/report features, the grounding model can achieve
better localization. In the verification process, we constructed a large-scale
dataset with region-description correspondence annotations for 10,410 studies
of 7,321 unique patients. We evaluated our framework using grounding accuracy,
the percentage of correctly localized anomalies, as a metric and demonstrated
that the combination of the anatomical segmentation and the report structuring
improves the performance with a large margin over the baseline model (66.0% vs
77.8%). Comparison with the prior techniques also showed higher performance of
our method.
- Abstract(参考訳): 医用画像認識システムの開発において,大規模なトレーニングデータセットの構築が不可欠である。
画像中のオブジェクトと対応する記述を自動的に関連付けるビジュアル接地技術は、多数の画像のラベリングを容易にする。
しかし,CT画像に対する画像診断では,CT画像から多くの異常が検出され,報告記述が長く複雑になるため,画像診断はいまだに困難である。
本稿では,ct画像とレポートペアを対象とし,様々な身体部位と多彩な異常タイプをカバーする最初の視覚接地フレームワークを提案する。
我々の枠組みは2つの要素を結合し
1)画像の解剖学的区分、および
2)報告の構造化
解剖学的セグメンテーションは、所定のct画像の複数の臓器マスクを提供し、詳細な解剖の認識を支援する。
レポート構造化は、対応するレポートに記述された各異常の有無、位置、種類に関する情報を正確に抽出するのに役立つ。
2つの追加のイメージ/レポート機能を考えると、接地モデルはより良いローカライゼーションを達成することができる。
検証プロセスでは,7,321人の患者を対象とした10,410件の地域記述対応アノテーションを用いた大規模データセットを構築した。
本手法は,接地精度,局所的異常率を指標として評価し,解剖学的セグメント化とレポート構造化の組み合わせにより,ベースラインモデルよりも大きなマージン(66.0%対77.8%)で性能が向上することを示した。
また,従来の手法との比較により,提案手法の性能が向上した。
関連論文リスト
- C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Unsupervised correspondence with combined geometric learning and imaging
for radiotherapy applications [0.0]
本研究の目的は, 放射線治療への応用において, 異なる患者の臓器区分間の対応点を正確に同定するモデルを開発することである。
3次元形状の同時対応と推定のためのモデルとして,頭部と頸部の臓器の分節をCTスキャンから訓練した。
次に、2つのアプローチを用いて画像情報を組み込むため、オリジナルモデルを拡張した。
論文 参考訳(メタデータ) (2023-09-25T16:29:18Z) - Building RadiologyNET: Unsupervised annotation of a large-scale
multimodal medical database [0.4915744683251151]
医学的診断と治療における機械学習の使用は、近年顕著な成長をみせている。
しかし、アノテーションのプロセスは時間がかかり、コストがかかるため、大きな注釈付き画像データセットが利用できることは大きな障害である。
本稿では, 医用放射線画像のデータベースに意味的類似性について, 自動的に注釈付けを行う方法について検討する。
論文 参考訳(メタデータ) (2023-07-27T13:00:33Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z) - Show, Describe and Conclude: On Exploiting the Structure Information of
Chest X-Ray Reports [5.6070625920019825]
胸部X線像(CXR)は臨床検診や診断に一般的に用いられる。
レポートのセクションと内部の複雑な構造は、自動レポート生成に大きな課題をもたらします。
本稿では,CXRイメージングレポートを生成するために,レポートセクション間の構造情報を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T02:29:20Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z) - Separation of target anatomical structure and occlusions in chest
radiographs [2.0478628221188497]
本稿では,無線画像から望ましくない視覚構造を抑圧する完全畳み込みネットワークを提案する。
提案アルゴリズムは高分解能CTスキャンから再構成されたラジオグラフィーと地上構造データを生成する。
論文 参考訳(メタデータ) (2020-02-03T14:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。