論文の概要: Unleashing Video Language Models for Fine-grained HRCT Report Generation
- arxiv url: http://arxiv.org/abs/2603.12469v1
- Date: Thu, 12 Mar 2026 21:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.773968
- Title: Unleashing Video Language Models for Fine-grained HRCT Report Generation
- Title(参考訳): 粒度HRCTレポート生成のためのビデオ言語モデルの構築
- Authors: Yingying Fang, Huichi Zhou, KinHei Lee, Yijia Wang, Zhenxuan Zhang, Jiahao Huang, Guang Yang,
- Abstract要約: AbSteeringは、ビデオLMをHRCTの正確なレポート生成に活用する、異常中心のフレームワークである。
以上の結果より,高ボリューム医用画像の転送性は高いことが示唆された。
- 参考スコア(独自算出の注目度): 15.816436105926542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating precise diagnostic reports from High-Resolution Computed Tomography (HRCT) is critical for clinical workflow, yet it remains a formidable challenge due to the high pathological diversity and spatial sparsity within 3D volumes. While Video Language Models (VideoLMs) have demonstrated remarkable spatio-temporal reasoning in general domains, their adaptability to domain-specific, high-volume medical interpretation remains underexplored. In this work, we present AbSteering, an abnormality-centric framework that steers VideoLMs toward precise HRCT report generation. Specifically, AbSteering introduces: (i) an abnormality-centric Chain-of-Thought scheme that enforces abnormality reasoning, and (ii) a Direct Preference Optimization objective that utilizes clinically confusable abnormalities as hard negatives to enhance fine-grained discrimination. Our results demonstrate that general-purpose VideoLMs possess strong transferability to high-volume medical imaging when guided by this paradigm. Notably, AbSteering outperforms state-of-the-art domain-specific CT foundation models, which are pretrained with large-scale CTs, achieving superior detection sensitivity while simultaneously mitigating hallucinations. Our data and model weights are released at https://anonymous.4open.science/r/hrct-report-generation-video-vlm-728C/
- Abstract(参考訳): 高分解能CT(High-Resolution Computed Tomography, HRCT)から正確な診断報告を生成することは, 臨床ワークフローにおいて重要であるが, 3Dボリューム内での病的多様性と空間空間の空間空間性のため, 依然として大きな課題である。
ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は, 一般領域において顕著な時空間的推論を実証しているが, ドメイン固有の高ボリュームな医療解釈への適応性はいまだ未解明である。
本稿では, HRCT の正確なレポート生成に向けて VideoLM を操る異常中心フレームワークである AbSteering を提案する。
具体的には、AbSteeringが紹介する。
一 異常推論を施行する異常中心連鎖計画及び
(II) 臨床的に不明瞭な異常をハードネガティブとして活用し, 微粒化の促進を図ることを目的とした直接選好最適化手法。
本研究は,高ボリューム医用画像の伝送性に優れた汎用ビデオフィルムについて,このパラダイムを導いた場合の伝送性を示すものである。
特に、AbSteeringは、大規模CTで事前訓練された最先端のドメイン固有CT基盤モデルより優れ、幻覚を同時に緩和しながら優れた検出感度を実現する。
我々のデータとモデルウェイトはhttps://anonymous.4open.science/r/hrct-report-generation-video-vlm-728C/で公開される。
関連論文リスト
- Hierarchical Attention for Sparse Volumetric Anomaly Detection in Subclinical Keratoconus [0.0]
階層アーキテクチャーは21~23%の感度と特異性を実現します。
力学解析は、この利点が空間スケールのアライメントから生じることを示唆している。
サブクリニカルケースは、健康的または過剰な病理学的ボリュームよりも長い空間的な統合を必要とする。
論文 参考訳(メタデータ) (2025-12-03T01:20:13Z) - CADD: Context aware disease deviations via restoration of brain images using normative conditional diffusion models [1.3462324726960995]
本稿では、3次元画像における規範的モデリングのための最初の条件拡散モデルCADDを提案する。
本稿では,異常除去と主観的特徴の保持を両立させる新しい推論塗装戦略を提案する。
論文 参考訳(メタデータ) (2025-08-05T15:59:19Z) - Harnessing EHRs for Diffusion-based Anomaly Detection on Chest X-rays [10.062242117926177]
画像診断におけるunsupervised anomaly detection (UAD) は, 広範囲なラベル付きデータを必要とせず, 病変の同定に重要である。
Diff3Mは胸部X線と構造化電子健康記録を融合した多モード拡散型フレームワークである。
論文 参考訳(メタデータ) (2025-05-22T22:02:47Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes [0.0]
既存の方法では、観察された異常に明示的に焦点をあてることなく、3D CT画像から直接レポートを生成するのが一般的である。
本稿では,まず異常を予測し,それぞれが対象とする記述を生成する,新たな異常誘導型レポート生成モデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T19:36:27Z) - Dia-LLaMA: Towards Large Language Model-driven CT Report Generation [4.634780391920529]
診断情報をガイダンスとして組み込むことで,CTレポート生成にLLaMA2-7Bを適用するためのフレームワークであるDia-LLaMAを提案する。
我々は,CTの高次元を考慮し,事前学習したVT3Dと知覚器を併用して視覚情報を抽出する。
報告生成のためのLCMを調整し,異常を強調するため,病原体記憶バンクを参照して,追加の診断情報を抽出する。
論文 参考訳(メタデータ) (2024-03-25T03:02:51Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Improving Deep Facial Phenotyping for Ultra-rare Disorder Verification
Using Model Ensembles [52.77024349608834]
我々は、DCNNを最先端の顔認識手法であるiResNetとArcFaceに置き換える影響を分析する。
提案するアンサンブルモデルにより,目視と目視の両障害に対する最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2022-11-12T23:28:54Z) - Explainable multiple abnormality classification of chest CT volumes with
AxialNet and HiResCAM [89.2175350956813]
本稿では,容積医用画像における多変量分類の課題について紹介する。
本稿では,複数のインスタンス学習型畳み込みニューラルネットワークであるAxialNetを提案する。
そして、HiResCAMと3D許容領域を利用した新しいマスクロスにより、モデルの学習を改善することを目指す。
論文 参考訳(メタデータ) (2021-11-24T01:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。