Fugu-MT 論文翻訳(概要): Visual Grounding of Whole Radiology Reports for 3D CT Images

論文の概要: Visual Grounding of Whole Radiology Reports for 3D CT Images

arxiv url: http://arxiv.org/abs/2312.04794v1
Date: Fri, 8 Dec 2023 02:09:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 16:21:52.232803
Title: Visual Grounding of Whole Radiology Reports for 3D CT Images
Title（参考訳）: 3次元CT画像における全身X線撮影
Authors: Akimichi Ichinose, Taro Hatsutani, Keigo Nakamura, Yoshiro Kitamura, Satoshi Iizuka, Edgar Simo-Serra, Shoji Kido, Noriyuki Tomiyama
Abstract要約: 今回,CT画像用に設計された最初の視覚的接地フレームワークについて紹介し,様々な身体部位と多様な異常タイプをカバーするペアを報告する。本フレームワークは, 画像の解剖学的セグメント化と, レポート構造化の2つの構成要素を組み合わせたものである。 7,321名のユニークな患者を対象に,地域記述対応アノテーションを用いた大規模データセットを構築した。
参考スコア（独自算出の注目度）: 12.071135670684013
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Building a large-scale training dataset is an essential problem in the development of medical image recognition systems. Visual grounding techniques, which automatically associate objects in images with corresponding descriptions, can facilitate labeling of large number of images. However, visual grounding of radiology reports for CT images remains challenging, because so many kinds of anomalies are detectable via CT imaging, and resulting report descriptions are long and complex. In this paper, we present the first visual grounding framework designed for CT image and report pairs covering various body parts and diverse anomaly types. Our framework combines two components of 1) anatomical segmentation of images, and 2) report structuring. The anatomical segmentation provides multiple organ masks of given CT images, and helps the grounding model recognize detailed anatomies. The report structuring helps to accurately extract information regarding the presence, location, and type of each anomaly described in corresponding reports. Given the two additional image/report features, the grounding model can achieve better localization. In the verification process, we constructed a large-scale dataset with region-description correspondence annotations for 10,410 studies of 7,321 unique patients. We evaluated our framework using grounding accuracy, the percentage of correctly localized anomalies, as a metric and demonstrated that the combination of the anatomical segmentation and the report structuring improves the performance with a large margin over the baseline model (66.0% vs 77.8%). Comparison with the prior techniques also showed higher performance of our method.
Abstract（参考訳）: 医用画像認識システムの開発において,大規模なトレーニングデータセットの構築が不可欠である。画像中のオブジェクトと対応する記述を自動的に関連付けるビジュアル接地技術は、多数の画像のラベリングを容易にする。しかし,CT画像に対する画像診断では,CT画像から多くの異常が検出され,報告記述が長く複雑になるため,画像診断はいまだに困難である。本稿では,ct画像とレポートペアを対象とし,様々な身体部位と多彩な異常タイプをカバーする最初の視覚接地フレームワークを提案する。我々の枠組みは2つの要素を結合し 1)画像の解剖学的区分、および 2)報告の構造化解剖学的セグメンテーションは、所定のct画像の複数の臓器マスクを提供し、詳細な解剖の認識を支援する。レポート構造化は、対応するレポートに記述された各異常の有無、位置、種類に関する情報を正確に抽出するのに役立つ。 2つの追加のイメージ/レポート機能を考えると、接地モデルはより良いローカライゼーションを達成することができる。検証プロセスでは,7,321人の患者を対象とした10,410件の地域記述対応アノテーションを用いた大規模データセットを構築した。本手法は,接地精度,局所的異常率を指標として評価し,解剖学的セグメント化とレポート構造化の組み合わせにより,ベースラインモデルよりも大きなマージン(66.0%対77.8%)で性能が向上することを示した。また,従来の手法との比較により,提案手法の性能が向上した。

関連論文リスト

CT-GRAPH: Hierarchical Graph Attention Network for Anatomy-Guided CT Report Generation [4.376648893167674]
我々は,放射線学的知識を明示的にモデル化した階層型グラフアテンションネットワークであるCT-GRAPHを提案する。本手法は, 事前訓練した3次元医用特徴エンコーダを用いて, グローバルな特徴と臓器レベルの特徴を抽出する。提案手法は,現在の最先端手法よりもF1スコアが絶対7.9%向上したことを示す。
論文参考訳（メタデータ） (2025-08-07T13:18:03Z)
Recurrent Visual Feature Extraction and Stereo Attentions for CT Report Generation [18.113659670915474]
本稿では,大規模言語モデル (LLM) に基づくCTRG法を提案する。具体的には、視覚変換器を用いて、各スライスをCTボリュームで繰り返し処理し、異なる視点から符号化したスライスに注意を払って重要な視覚情報を得る。ベンチマークM3D-Capデータセットの実験結果とさらなる解析により,本手法が強いベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2025-06-24T14:29:06Z)
RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [48.21287619304126]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。 RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文参考訳（メタデータ） (2025-03-06T17:43:03Z)
CTARR: A fast and robust method for identifying anatomical regions on CT images via atlas registration [0.09130220606101362]
我々はCT解剖学的領域認識のための新しい汎用手法であるCTARRを紹介する。この方法は、ディープラーニングベースのCT画像解析パイプラインの事前処理ステップとして機能する。提案手法は, アトラス登録に基づいて, 無ラベルCTスキャンから1つまたは複数の境界ボックスとして符号化された解剖学的領域を抽出する高速かつ堅牢な方法を提供する。
論文参考訳（メタデータ） (2024-10-03T08:52:21Z)
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-09-28T12:31:07Z)
Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer [4.672688418357066]
本稿では,雑音の存在下での頑健なセグメンテーションのためのトランスフォーマー拡散(DTS)モデルを提案する。画像の形態的表現を解析する本モデルでは, 種々の医用画像モダリティにおいて, 従来のモデルよりも良好な結果が得られた。
論文参考訳（メタデータ） (2024-08-01T07:35:54Z)
RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文参考訳（メタデータ） (2024-04-25T17:11:37Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
Unsupervised correspondence with combined geometric learning and imaging for radiotherapy applications [0.0]
本研究の目的は, 放射線治療への応用において, 異なる患者の臓器区分間の対応点を正確に同定するモデルを開発することである。 3次元形状の同時対応と推定のためのモデルとして,頭部と頸部の臓器の分節をCTスキャンから訓練した。次に、2つのアプローチを用いて画像情報を組み込むため、オリジナルモデルを拡張した。
論文参考訳（メタデータ） (2023-09-25T16:29:18Z)
Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。本手法は,多視点グローバル情報を自然に学習することができる。
論文参考訳（メタデータ） (2023-07-24T14:43:07Z)
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文参考訳（メタデータ） (2022-03-18T13:43:53Z)
Pathological Retinal Region Segmentation From OCT Images Using Geometric Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文参考訳（メタデータ） (2020-03-31T11:50:43Z)
Separation of target anatomical structure and occlusions in chest radiographs [2.0478628221188497]
本稿では,無線画像から望ましくない視覚構造を抑圧する完全畳み込みネットワークを提案する。提案アルゴリズムは高分解能CTスキャンから再構成されたラジオグラフィーと地上構造データを生成する。
論文参考訳（メタデータ） (2020-02-03T14:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。