論文の概要: DiffVP: Differential Visual Semantic Prompting for LLM-Based CT Report Generation
- arxiv url: http://arxiv.org/abs/2603.17718v1
- Date: Wed, 18 Mar 2026 13:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.728395
- Title: DiffVP: Differential Visual Semantic Prompting for LLM-Based CT Report Generation
- Title(参考訳): DiffVP: LLM-based CT 生成のための差分的視覚的セマンティック・プロンプト
- Authors: Yuhe Tian, Kun Zhang, Haoran Ma, Rui Yan, Yingtai Li, Rongsheng Wang, Shaohua Kevin Zhou,
- Abstract要約: DiffVP (differial Visual Prompting) を提案する。
2つの大規模ベンチマークにおいて、DiffVPは従来手法より一貫して優れ、平均のBLEU-1-4を+10.98と+4.36で改善した。
- 参考スコア(独自算出の注目度): 18.257492970454898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have advanced CT report generation, existing methods typically encode 3D volumes holistically, failing to distinguish informative cues from redundant anatomical background. Inspired by radiological cognitive subtraction, we propose Differential Visual Prompting (DiffVP), which conditions report generation on explicit, high-level semantic scan-to-reference differences rather than solely on absolute visual features. DiffVP employs a hierarchical difference extractor to capture complementary global and local semantic discrepancies into a shared latent space, along with a difference-to-prompt generator that transforms these signals into learnable visual prefix tokens for LLM conditioning. These difference prompts serve as structured conditioning signals that implicitly suppress invariant anatomy while amplifying diagnostically relevant visual evidence, thereby facilitating accurate report generation without explicit lesion localization. On two large-scale benchmarks, DiffVP consistently outperforms prior methods, improving the average BLEU-1-4 by +10.98 and +4.36, respectively, and further boosts clinical efficacy on RadGenome-ChestCT (F1 score 0.421). All codes will be released at https://github.com/ArielTYH/DiffVP/.
- Abstract(参考訳): 大規模言語モデル(LLM)は高度なCTレポートを生成するが、既存の手法は一般的に3Dボリュームを論理的にエンコードし、冗長な解剖学的背景から情報的手がかりを区別することができない。
DiffVPは, 絶対的な視覚的特徴にのみ依存せず, 明示的かつ高レベルな意味的スキャンと参照の相違を報告できる。
DiffVPは階層的な差分抽出器を使用して、補完的なグローバルおよび局所的な意味的不一致を共有潜在空間にキャプチャし、これらの信号をLLMコンディショニングのための学習可能な視覚的接頭辞トークンに変換する。
これらの差異は、診断に関連のある視覚的証拠を増幅しながら、暗黙的に不変の解剖を抑える構造的条件付け信号として機能し、明示的な病変の局所化を伴わない正確な報告生成を容易にする。
2つの大規模ベンチマークにおいて、DiffVPは先行手法を一貫して上回り、平均BLEU-1-4を+10.98と+4.36で改善し、RadGenome-ChestCT(F1スコア0.421)における臨床効果をさらに向上させた。
すべてのコードはhttps://github.com/ArielTYH/DiffVP/でリリースされる。
関連論文リスト
- SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation [12.0982298854338]
Continual Test-Time Adaptation (CTTA)は、トレーニング済みのモデルが、ラベルなしドメインの継続的な変更に適応できるようにすることを目的としている。
医用画像セグメンテーションのためのセマンティック・プロンプト拡張グラフクラスタリング(SPEGC)によるCTTAを提案する。
論文 参考訳(メタデータ) (2026-03-12T03:22:43Z) - EVLF: Early Vision-Language Fusion for Generative Dataset Distillation [6.913041518668593]
本稿では,エンコーダと生成バックボーンの遷移において,テキストと視覚の埋め込みを整列するEarly Vision-Language Fusion(EVLF)法を提案する。
EVLFはプラグアンドプレイであり、任意の拡散ベースのデータセット蒸留パイプラインにエンコーダで容易に統合できる。
EVLFはセマンティックに忠実で視覚的に一貫性のある合成データを生成し、様々な設定で下流の分類精度が一貫した改善をもたらすことを示した。
論文 参考訳(メタデータ) (2026-03-08T05:34:07Z) - Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - ZeroDiff++: Substantial Unseen Visual-semantic Correlation in Zero-shot Learning [42.855022683292276]
目に見えるクラスや目に見えないクラスに対して、スプリアスネスを定量化するためのメトリクスを導入します。
拡散型生成フレームワークZeroDiff++を提案する。
3つのZSLベンチマークの実験では、ZeroDiff++は既存のZSLメソッドよりも大幅に改善されているだけでなく、トレーニングデータが少なくても堅牢なパフォーマンスを維持している。
論文 参考訳(メタデータ) (2026-02-12T20:52:07Z) - LEAD: Layer-wise Expert-aligned Decoding for Faithful Radiology Report Generation [25.67810663907638]
放射線診断報告生成(RRG)は、医用画像から正確で一貫性のある診断を作成することを目的としている。
大型視覚言語モデル (LVLM) は幻覚を示し、可視だが画像のない病理像を生成する。
本稿では,LVLMデコーダを本質的に修正する新しい手法であるレイヤワイズ・エキスパートアライメント・デコーダ(LEAD)を提案する。
論文 参考訳(メタデータ) (2026-02-04T14:45:49Z) - HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Generalized Zero-Shot Learning via VAE-Conditioned Generative Flow [83.27681781274406]
一般化されたゼロショット学習は、意味的記述から視覚的表現へ知識を移すことによって、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
近年のGZSLはデータ不足問題として定式化されており、主にGANやVAEを採用して、目に見えないクラスの視覚的特徴を生成する。
GZSLのための条件付き生成フロー,すなわちVAE-Conditioned Generative Flow (VAE-cFlow)を提案する。
論文 参考訳(メタデータ) (2020-09-01T09:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。