Fugu-MT 論文翻訳(概要): MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement

論文の概要: MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement

arxiv url: http://arxiv.org/abs/2411.18309v2
Date: Mon, 06 Jan 2025 10:34:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:49.989007
Title: MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement
Title（参考訳）: MvKeTR:マルチビュー認識と知識向上による胸部CTレポート生成
Authors: Xiwei Deng, Xianchun He, Jiangfeng Bao, Yudan Zhou, Shuhui Cai, Congbo Cai, Zhong Chen,
Abstract要約: マルチビュー認識知識強化トランス(MvKeTR) 複数の解剖学的視点から診断情報を効果的に合成する。 Cross-Modal Knowledge Enhancer (CMKE) はクエリボリュームに基づいて最もよく似たレポートを検索する。
参考スコア（独自算出の注目度）: 1.4680538148112467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: CT report generation (CTRG) aims to automatically generate diagnostic reports for 3D volumes, relieving clinicians' workload and improving patient care. Despite clinical value, existing works fail to effectively incorporate diagnostic information from multiple anatomical views and lack related clinical expertise essential for accurate and reliable diagnosis. To resolve these limitations, we propose a novel Multi-view perception Knowledge-enhanced Transformer (MvKeTR) to mimic the diagnostic workflow of clinicians. Just as radiologists first examine CT scans from multiple planes, a Multi-View Perception Aggregator (MVPA) with view-aware attention effectively synthesizes diagnostic information from multiple anatomical views. Then, inspired by how radiologists further refer to relevant clinical records to guide diagnostic decision-making, a Cross-Modal Knowledge Enhancer (CMKE) retrieves the most similar reports based on the query volume to incorporate domain knowledge into the diagnosis procedure. Furthermore, instead of traditional MLPs, we employ Kolmogorov-Arnold Networks (KANs) with learnable nonlinear activation functions as the fundamental building blocks of both modules to better capture intricate diagnostic patterns in CT interpretation. Extensive experiments on the public CTRG-Chest-548K dataset demonstrate that our method outpaces prior state-of-the-art (SOTA) models across almost all metrics. The code will be made publicly available.
Abstract（参考訳）: CTレポート生成(CTRG)は、3Dボリュームの診断レポートを自動的に生成し、臨床医の作業負荷を軽減し、患者のケアを改善することを目的としている。臨床価値にもかかわらず、既存の研究は、複数の解剖学的視点から診断情報を効果的に組み込むことができず、正確で信頼性の高い診断に必要な臨床知識が欠如している。これらの制約を解決するために,臨床医の診断ワークフローを模倣する,MvKeTR(Multi-view Recognition-enhanced Transformer)を提案する。放射線学者がまず複数の平面からのCTスキャンを調べるのと同じように、視線を意識した多視点知覚アグリゲータ(MVPA)は、複数の解剖学的視点から診断情報を効果的に合成する。その後、放射線技師が関連する臨床記録を参照して診断の意思決定をガイドする方法に触発され、Cross-Modal Knowledge Enhancer(CMKE)は、クエリ量に基づいて最もよく似たレポートを検索し、診断手順にドメイン知識を組み込む。さらに,従来のMLPの代わりに,学習可能な非線形アクティベーション機能を備えたKAN(Kolmogorov-Arnold Networks)を両モジュールの基本構築ブロックとして採用し,CT解釈における複雑な診断パターンをより正確に捉える。パブリックなCTRG-Chest-548Kデータセットに関する大規模な実験により、我々の手法は、ほぼすべてのメトリクスにわたって、以前の最先端(SOTA)モデルよりも優れていることが示された。コードは公開されます。

関連論文リスト

Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文参考訳（メタデータ） (2026-02-02T13:07:52Z)
RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。 RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文参考訳（メタデータ） (2025-09-24T10:36:14Z)
CT-GRAPH: Hierarchical Graph Attention Network for Anatomy-Guided CT Report Generation [4.376648893167674]
我々は,放射線学的知識を明示的にモデル化した階層型グラフアテンションネットワークであるCT-GRAPHを提案する。本手法は, 事前訓練した3次元医用特徴エンコーダを用いて, グローバルな特徴と臓器レベルの特徴を抽出する。提案手法は,現在の最先端手法よりもF1スコアが絶対7.9%向上したことを示す。
論文参考訳（メタデータ） (2025-08-07T13:18:03Z)
OrthoInsight: Rib Fracture Diagnosis and Report Generation Based on Multi-Modal Large Models [0.49478969093606673]
骨折診断と報告生成のための多モード深層学習フレームワークOrthoInsightを提案する。骨折検出のためのYOLOv9モデル、臨床コンテキストを検索するための医療知識グラフ、診断レポートを生成するための微調整されたLLaVA言語モデルを統合する。 28,675枚のCT画像と専門家の報告から評価し、診断精度、コンテンツ完全性、論理的コヒーレンス、臨床ガイダンス値にまたがる高いパフォーマンスを平均4.28で達成している。
論文参考訳（メタデータ） (2025-07-18T15:01:44Z)
Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography [0.0]
本研究は,胸部X線撮影における疾患検出のための放射線治療と深層学習によるアプローチの包括的評価である。新型コロナウイルス、肺不透明症、ウイルス性肺炎に焦点が当てられている。臨床実習におけるAI駆動診断ツールの統合について報告する。
論文参考訳（メタデータ） (2025-04-16T16:54:37Z)
Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data [0.0]
本研究では,SIGLIPとGemma-3bアーキテクチャを併用したVLM(Vision-Language Model)を提案する。 VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成する。結石,空洞,結節などの急性TBの病態は,高い精度とリコールで検出された。
論文参考訳（メタデータ） (2025-03-17T14:08:35Z)
A Continual Learning-driven Model for Accurate and Generalizable Segmentation of Clinically Comprehensive and Fine-grained Whole-body Anatomies in CT [67.34586036959793]
完全に注釈付きCTデータセットは存在せず、すべての解剖学がトレーニングのために記述されている。完全解剖を分割できる連続学習駆動CTモデルを提案する。単体CT分割モデルCL-Netは, 臨床的に包括的に包括的に235個の粒状体解剖の集合を高精度に分割することができる。
論文参考訳（メタデータ） (2025-03-16T23:55:02Z)
Bridging the Diagnostic Divide: Classical Computer Vision and Advanced AI methods for distinguishing ITB and CD through CTE Scans [2.900410045439515]
放射線医の間では, 内皮-皮下脂肪比は, ITBとCDの鑑別における代用バイオマーカーとして認識されている。本稿では,この比率計算を自動化するために,皮下脂肪の自動分離のための新しい2次元画像コンピュータビジョンアルゴリズムを提案する。 ITB, CD, 正常患者のサンプルを用いて, CTEスキャンのデータセットを用いてResNet10モデルを訓練し, 75%の精度を得た。
論文参考訳（メタデータ） (2024-10-23T17:05:27Z)
Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文参考訳（メタデータ） (2023-12-26T18:20:48Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。 ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文参考訳（メタデータ） (2023-10-08T17:23:17Z)
Dynamic Multi-Domain Knowledge Networks for Chest X-ray Report Generation [0.5939858158928474]
放射線診断レポート生成のための動的マルチドメイン知識(DMDK)ネットワークを提案する。 DMDKネットワークは、Chest Feature Extractor(CFE), Dynamic Knowledge Extractor(DKE), Specific Knowledge Extractor(SKE), Multi-knowledge Integrator(MKI)モジュールの4つのモジュールで構成されている。 IU X-RayとMIMIC-CXRの2つの広く使われているデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2023-10-08T11:20:02Z)
An Empirical Analysis for Zero-Shot Multi-Label Classification on COVID-19 CT Scans and Uncurated Reports [0.5527944417831603]
パンデミックは、医学検査の増加により、放射線学の報告を含む、膨大な構造化されていないデータのリポジトリに繋がった。新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。本研究では,病院の非構造データを活用し,CTスキャンによって提供される細かな細部を利用して,対照的な視覚言語学習に基づくゼロショット多ラベル分類を行う。
論文参考訳（メタデータ） (2023-09-04T17:58:01Z)
A Transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文参考訳（メタデータ） (2023-06-01T16:23:47Z)
Improving Chest X-Ray Classification by RNN-based Patient Monitoring [0.34998703934432673]
我々は、診断に関する情報がCNNに基づく画像分類モデルを改善する方法について分析する。追加の患者履歴情報に基づいてトレーニングされたモデルが、情報のないトレーニングを受けたモデルよりも有意なマージンで優れていることを示す。
論文参考訳（メタデータ） (2022-10-28T11:47:15Z)
Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。 CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文参考訳（メタデータ） (2022-06-04T13:16:30Z)
Preservation of High Frequency Content for Deep Learning-Based Medical Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文参考訳（メタデータ） (2022-05-08T15:29:54Z)
SpineOne: A One-Stage Detection Framework for Degenerative Discs and Vertebrae [54.751251046196494]
SpineOneと呼ばれる一段階検出フレームワークを提案し、MRIスライスから変性椎骨と椎骨を同時に局在化・分類する。 1)キーポイントの局所化と分類を促進するためのキーポイント・ヒートマップの新しい設計、2)ディスクと脊椎の表現をよりよく区別するためのアテンション・モジュールの使用、3)後期訓練段階における複数の学習目標を関連付けるための新しい勾配誘導客観的アソシエーション機構。
論文参考訳（メタデータ） (2021-10-28T12:59:06Z)
BI-RADS-Net: An Explainable Multitask Learning Approach for Cancer Diagnosis in Breast Ultrasound Images [69.41441138140895]
本稿では,乳房超音波画像における癌検出のための新しい深層学習手法であるBI-RADS-Netを紹介する。提案手法は, 臨床診断に関連する特徴表現を学習することにより, 乳腺腫瘍の説明と分類を行うタスクを取り入れたものである。臨床医が医療現場で診断・報告するために使用する形態学的特徴の観点から予測(良性または悪性)の説明が提供される。
論文参考訳（メタデータ） (2021-10-05T19:14:46Z)
Inheritance-guided Hierarchical Assignment for Clinical Automatic Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-01-27T13:16:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。