論文の概要: A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation
- arxiv url: http://arxiv.org/abs/2506.23584v1
- Date: Mon, 30 Jun 2025 07:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.962202
- Title: A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation
- Title(参考訳): 腎CTレポート作成のための2段階の臨床的検討
- Authors: Renjie Liang, Zhengkang Fan, Jinqian Pan, Chenkun Sun, Russell Terry, Jie Xu,
- Abstract要約: 2次元CTスライスから腎X線所見を生成するための2段階の枠組みを提案する。
まず, マルチタスク学習モデルを用いて構造的異常特徴を抽出し, 病変の属性を同定する。
これらの特徴を対応するCT画像と組み合わせ、微調整された視覚言語モデルに入力し、自然言語のレポート文を生成する。
- 参考スコア(独自算出の注目度): 2.988064755409503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating radiology reports from CT scans remains a complex task due to the nuanced nature of medical imaging and the variability in clinical documentation. In this study, we propose a two-stage framework for generating renal radiology reports from 2D CT slices. First, we extract structured abnormality features using a multi-task learning model trained to identify lesion attributes such as location, size, enhancement, and attenuation. These extracted features are subsequently combined with the corresponding CT image and fed into a fine-tuned vision-language model to generate natural language report sentences aligned with clinical findings. We conduct experiments on a curated dataset of renal CT studies with manually annotated sentence-slice-feature triplets and evaluate performance using both classification metrics and natural language generation metrics. Our results demonstrate that the proposed model outperforms random baselines across all abnormality types, and the generated reports capture key clinical content with reasonable textual accuracy. This exploratory work highlights the feasibility of modular, feature-informed report generation for renal imaging. Future efforts will focus on extending this pipeline to 3D CT volumes and further improving clinical fidelity in multimodal medical AI systems.
- Abstract(参考訳): CTスキャンから放射線学レポートを生成することは、医療画像のニュアンスな性質と臨床文書の多様性のために、依然として複雑な課題である。
本研究では,2次元CTスライスから腎ラジオグラフィーレポートを生成するための2段階フレームワークを提案する。
まず, 位置, サイズ, 拡張, 減衰などの病変特性の同定を訓練したマルチタスク学習モデルを用いて, 構造的異常特徴を抽出する。
これらの特徴を対応するCT画像と組み合わせ、微調整された視覚言語モデルに入力し、臨床所見に沿った自然言語レポート文を生成する。
本研究は,手動で注釈付文スライス・フィーチャー・トリプレットを用いた腎CT検査データセットの実験を行い,分類基準と自然言語生成指標を用いて評価を行った。
以上の結果から, 提案手法はすべての異常タイプにおいて, ランダムなベースラインよりも優れており, 得られた報告は, 適切なテキスト精度で重要な臨床コンテンツをキャプチャする。
この探索的な研究は、腎イメージングのためのモジュラー・フィーチャインフォームド・レポート生成の可能性を強調している。
今後は、このパイプラインを3DCTボリュームに拡張し、マルチモーダル医療用AIシステムの臨床的忠実度をさらに向上していく予定だ。
関連論文リスト
- AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - Ocular-Induced Abnormal Head Posture: Diagnosis and Missing Data Imputation [1.7061463565692456]
AHP(Acular-induced abnormal head posture)は、眼疾患から生じる補充機構である。
本研究では,2つの相補的なディープラーニングフレームワークを通じて,両課題に対処する。
AHP-CADNetは自動診断のための多層注意融合フレームワークである。
カリキュラムベースの計算フレームワークは、欠落したデータを緩和するために設計されている。
論文 参考訳(メタデータ) (2025-10-07T07:51:59Z) - EMeRALDS: Electronic Medical Record Driven Automated Lung Nodule Detection and Classification in Thoracic CT Images [4.533165461983661]
肺がんは世界中でがん関連死亡の原因となっている。
本研究では,大規模視覚言語モデル(VLM)を活用したコンピュータ支援診断(CAD)システムの開発を目的とする。
提案手法はゼロショット肺結節解析において強い性能を示した。
論文 参考訳(メタデータ) (2025-09-15T09:11:17Z) - Teaching AI Stepwise Diagnostic Reasoning with Report-Guided Chain-of-Thought Learning [11.537036709742345]
DiagCoTは汎用視覚言語モデル(VLM)に教師付き微調整を適用するフレームワークである
DiagCoTは、ドメインアライメントのためのコントラッシブなイメージレポートチューニング、推論ロジックをキャプチャするためのチェーン・オブ・シンセサイザー、および臨床報酬信号による強化チューニングを組み合わせることで、事実の正確性と流布性を高める。
LLaVA-MedやCXR-LLAVAといった最先端モデルでは、長い尾の病気や外部データセットよりも優れています。
論文 参考訳(メタデータ) (2025-09-08T08:01:26Z) - A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer [54.58205672910646]
RenalCLIPは、腎腫瘤の特徴、診断、予後のための視覚言語基盤モデルである。
腎がんの完全な臨床ワークフローにまたがる10のコアタスクにおいて、優れたパフォーマンスと優れた一般化性を実現した。
論文 参考訳(メタデータ) (2025-08-22T17:48:19Z) - PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation [12.860257420677122]
PriorRGは胸部X線レポート生成フレームワークで、2段階のトレーニングパイプラインを通じて実際の臨床をエミュレートする。
ステージ1では,臨床文脈の時間的特徴抽出を利用した事前指導型コントラスト事前訓練方式を導入する。
ステージ2では、視覚エンコーダの隠蔽状態との事前知識を高めるために、事前認識された粗時間デコーディングを統合する。
論文 参考訳(メタデータ) (2025-08-07T13:02:20Z) - OrthoInsight: Rib Fracture Diagnosis and Report Generation Based on Multi-Modal Large Models [0.49478969093606673]
骨折診断と報告生成のための多モード深層学習フレームワークOrthoInsightを提案する。
骨折検出のためのYOLOv9モデル、臨床コンテキストを検索するための医療知識グラフ、診断レポートを生成するための微調整されたLLaVA言語モデルを統合する。
28,675枚のCT画像と専門家の報告から評価し、診断精度、コンテンツ完全性、論理的コヒーレンス、臨床ガイダンス値にまたがる高いパフォーマンスを平均4.28で達成している。
論文 参考訳(メタデータ) (2025-07-18T15:01:44Z) - Interactive Segmentation and Report Generation for CT Images [10.23242820828816]
本稿では,3次元病変の報告のためのインタラクティブなフレームワークを提案する。
3次元CT医療画像にインタラクティブなセグメンテーションと構造化されたレポートを統合するのは,今回が初めてである。
論文 参考訳(メタデータ) (2025-03-05T09:18:27Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - Dia-LLaMA: Towards Large Language Model-driven CT Report Generation [4.634780391920529]
診断情報をガイダンスとして組み込むことで,CTレポート生成にLLaMA2-7Bを適用するためのフレームワークであるDia-LLaMAを提案する。
我々は,CTの高次元を考慮し,事前学習したVT3Dと知覚器を併用して視覚情報を抽出する。
報告生成のためのLCMを調整し,異常を強調するため,病原体記憶バンクを参照して,追加の診断情報を抽出する。
論文 参考訳(メタデータ) (2024-03-25T03:02:51Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。