論文の概要: Enhancing Fine-Grained Spatial Grounding in 3D CT Report Generation via Discriminative Guidance
- arxiv url: http://arxiv.org/abs/2604.10437v1
- Date: Sun, 12 Apr 2026 03:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.016496
- Title: Enhancing Fine-Grained Spatial Grounding in 3D CT Report Generation via Discriminative Guidance
- Title(参考訳): 識別誘導による3次元CTレポート生成における微粒化空間グラウンド化の促進
- Authors: Chenyu Wang, Weicheng Dai, Han Liu, Wenchao Li, Kayhan Batmanghelich,
- Abstract要約: ラジオロジーレポート生成(RRG)のための視覚言語モデル(VLM)は、ボリュームスキャンから長めの胸部CTレポートを生成することができる。
既存の方法は2つの重要な制限に直面している: (i) トレーニングの監督は、しばしば粗くなり、きめ細かい属性や病理の場所を明示的に調整することなく、CTのボリューム全体を完全な自由テキストのレポートと整列する。
本稿では,フリーテキストレポートから微細なキューを蒸留し,レポート生成をガイドするプラグイン・アンド・プレイフレームワークであるPrompt Dropout (DCP-PD) を用いたemphDiscrimi Cue-Promptingを提案する。
- 参考スコア(独自算出の注目度): 16.566888073449714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision--language models (VLMs) for radiology report generation (RRG) can produce long-form chest CT reports from volumetric scans and show strong potential to improve radiology workflow efficiency and consistency. However, existing methods face two key limitations: (i) training supervision is often coarse, aligning a whole CT volume with a full free-text report without explicit alignment for fine-grained attributes or pathology locations; and (ii) evaluation is typically holistic (lexical overlap, entity matching, or LLM-as-a-judge scores) and not diagnostic for spatial grounding. We propose \emph{Discriminative Cue-Prompting with Prompt Dropout (DCP-PD)}, a plug-and-play framework that distills fine-grained cues from free-text reports and uses them to guide report generation while mitigating shortcut reliance via prompt dropout. DCP-PD achieves state-of-the-art performance on CT-RATE, improving macro F1 from $=0.501$ to $0.603$ (20% relative), and substantially boosts out-of-distribution performance on Rad-ChestCT from F1 $=0.266$ to $0.503$ (89% relative). Finally, we introduce a hierarchical, location-aware question-set protocol (presence $\rightarrow$ laterality $\rightarrow$ lobe) to directly assess pathology-location grounding, showing that fine-grained spatial localization remains challenging even for models that score highly on current benchmarks.
- Abstract(参考訳): 放射線学報告生成(RRG)のための視覚言語モデル(VLM)は、ボリュームスキャンから長期の胸部CTレポートを生成し、放射線学のワークフロー効率と整合性を改善する強力な可能性を示す。
しかし、既存のメソッドには2つの重要な制限がある。
i) 訓練の監督は、しばしば粗いもので、きめ細かい属性や病理の場所を明示せずに、全CTボリュームを完全な自由テキストレポートと整列する。
(ii) 評価は概ね全体的(語彙重なり, 実体整合, LLM-as-a-judgeスコア)であり, 空間的グラウンドリングの診断は行わない。
本稿では,自由テキストレポートから微細なキューを蒸留するプラグイン・アンド・プレイ・フレームワークである,Prompt Dropout (DCP-PD) を用いた "emph{Discriminative Cue-Prompting with Prompt Dropout" を提案する。
DCP-PDはCT-RATEの最先端性能を達成し、マクロF1を$=0.501$から$0.603$(20%相対)に改善し、Rad-ChestCTをF1$=0.266$から$0.503$(89%相対)に大きく改善する。
最後に, 階層的かつ位置対応な質問セットプロトコル (presence $\rightarrow$ laterality $\rightarrow$ lobe) を導入し, 現在のベンチマークで高いスコアを得たモデルにおいても, 詳細な空間的局所化は依然として困難であることを示す。
関連論文リスト
- SA-CycleGAN-2.5D: Self-Attention CycleGAN with Tri-Planar Context for Multi-Site MRI Harmonization [3.5109108807229403]
本稿では,Ben-David らによる$HH$-divergence 境界によるドメイン適応フレームワーク SA-CycleGAN-2.5D を提案する。
2D効率と3D一貫性をブリッジすることで,腫瘍の病態を保ったボクセルレベルの高調波画像が得られる。
論文 参考訳(メタデータ) (2026-03-17T23:49:46Z) - PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency [22.13541624406203]
VLM(Vision-Language Models)は、解釈可能な画像解析、自動レポート、スケーラブルな意思決定支援を可能にすることにより、計算病理学において大きな可能性を秘めている。
このギャップに対処するために,3次元にわたる病理VLMを評価する新しい基準フリー評価フレームワークPathGLSを提案する。
The Experiments on Quilt-1M, TCGA, REG2025, PathMMU and TCGA-Sarcoma datasets showed the superiority of PathGLS。
論文 参考訳(メタデータ) (2026-03-17T04:25:55Z) - Beyond the Embedding Bottleneck: Adaptive Retrieval-Augmented 3D CT Report Generation [10.885951167009694]
3D CTは鑑別病理信号をエンコードするが, 重度濃度は高い。
この視覚的ボトルネックを補う適応的な拡張フレームワークである textbfAdaRAG-CT を提案する。
AdaRAG-CTは最先端の臨床効果を達成し、臨床F1を0.420(CT-Agent)から0.480(+6ポイント)に改善する
論文 参考訳(メタデータ) (2026-03-16T18:56:14Z) - Using Unsupervised Domain Adaptation Semantic Segmentation for Pulmonary Embolism Detection in Computed Tomography Pulmonary Angiogram (CTPA) Images [0.0]
非教師なしドメイン適応(UDA)フレームワークはTransformerのバックボーンとMean-Teacherアーキテクチャを使って、センター間のセマンティックセマンティックセグメンテーションを実現する。
主な焦点は、特徴空間内の深い構造情報を学習することで、擬似ラベルの信頼性を高めることである。
クロスセンタデータセット(FUMPEとCAD-PE)で実施した実験的検証は、大幅な性能向上を示す。
論文 参考訳(メタデータ) (2026-02-23T14:33:24Z) - $μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation [9.947108972979155]
我々は,放射線学レポート生成タスクのための大規模言語モデルとして,$mu2$LLM, a $underlinetextbfmu$ltiscale $underlinetextbfmu$ltimodalを提案する。
中間層である$mu2$Tokenizerは、マルチスケールのビジュアルトークンライザとテキストトークンライザのマルチモーダル機能を統合したものである。
そこで我々は,5段階のLCM駆動パイプラインを導入し,定期的なCTレポートを3重対の視覚質問応答と引用リンク推論の物語に変換する。
論文 参考訳(メタデータ) (2025-06-30T23:14:49Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - COVI-AgentSim: an Agent-based Model for Evaluating Methods of Digital
Contact Tracing [68.68882022019272]
COVI-AgentSimは、ウイルス学、病気の進行、社会的接触ネットワーク、移動パターンに基づくエージェントベースのコンパートメンタルシミュレータである。
1)バイナリテスト結果に基づいてバイナリレコメンデーションを割り当てる標準バイナリコンタクトトレース (BCT) と,2) 多様な特徴に基づいてグレードレベルのレコメンデーションを割り当てる特徴ベースコンタクトトレース (FCT) のルールベースの手法である。
論文 参考訳(メタデータ) (2020-10-30T00:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。