論文の概要: GLeVE: Graph-Guided Lesion Grounding with Proposal Verification in 3D CT
- arxiv url: http://arxiv.org/abs/2605.22619v1
- Date: Thu, 21 May 2026 15:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.595151
- Title: GLeVE: Graph-Guided Lesion Grounding with Proposal Verification in 3D CT
- Title(参考訳): GLeVE:3次元CTによるグラフガイド下病変接地の提案
- Authors: Shuo Jiang, Yuhao Hong, Chunbo Jiang, Weihong Chen, Huangwei Chen, Shenghao Zhu, Beining Wu, Mingxuan Liu, Zhu Zhu, Feiwei Qin, Min Tan, Yifei Chen,
- Abstract要約: 臨床診断には3次元CTボリュームへの地中X線検査報告の記載が不可欠である。
既存のレポート支援および視覚言語基底法は、フレーズレベルのアライメントや高密度画素監督に依存している。
解剖学的事前検証とオクツリーによる自己回帰的改善を併用したグラフ誘導型病変基盤フレームワークであるGLeVEを提案する。
- 参考スコア(独自算出の注目度): 16.979389238358937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounding radiology report descriptions to 3D CT volumes is essential for verifiable clinical interpretation, yet remains challenging due to the semantic-spatial gap between free-text narratives and volumetric anatomy. Existing report-assisted and vision-language grounding methods typically rely on phrase-level alignment or dense pixel supervision, resulting in limited lesion-wise correspondence and suboptimal localization accuracy. We propose GLeVE, a graph-guided lesion grounding framework with anatomical prior verification and octree-based autoregressive refinement. GLeVE treats each lesion description as an atomic semantic unit and encodes organ attribution, attributes, and inter-lesion relations through relation-aware graph reasoning to produce discriminative lesion-wise queries. Anatomy-aware proposal generation with region-level verification enforces one-to-one text-lesion alignment, while hierarchical octree refinement progressively improves boundary delineation. Experiments on AbdomenAtlas 3.0 demonstrate consistent gains over classical multimodal foundation models and report-supervised baselines in both segmentation accuracy and lesion-level localization.
- Abstract(参考訳): 臨床解釈の検証には3次元CTボリュームの記述が不可欠であるが, 自由文物語と体積解剖学の相違により, 意味的・空間的ギャップが生じるため, いまだに困難である。
既存のレポート支援および視覚言語接地法は、通常、フレーズレベルのアライメントや高密度ピクセルの監督に依存しており、病変の対応が限定され、最適な位置決め精度が低下する。
解剖学的事前検証とオクツリーによる自己回帰的改善を併用したグラフ誘導型病変基盤フレームワークであるGLeVEを提案する。
GLeVEは、各病変の記述を原子意味単位として扱い、関係性認識グラフ推論を通じて臓器の属性、属性、配列間関係を符号化し、識別的病変関連クエリを生成する。
領域レベルの検証による解剖学的評価による提案生成は1対1のテキスト列アライメントを強制する一方、階層的なオクツリーの改良は境界のデライン化を徐々に改善する。
AbdomenAtlas 3.0の実験は、古典的マルチモーダル基盤モデルと、セグメンテーション精度と病変レベルの局所化の両方におけるレポート管理ベースラインに対して、一貫した利得を示した。
関連論文リスト
- MedScribe: Clinically Grounded CT Reporting through Agentic Workflows [13.40306812882295]
視覚言語モデル(VLM)は、自動放射線診断レポート生成の可能性を示している。
我々は,仮説駆動型フレームワークであるMedScribeを紹介し,レポート生成を反復的証拠取得プロセスとして再構築する。
論文 参考訳(メタデータ) (2026-05-03T08:32:40Z) - EXACT: an explainable anomaly-aware vision foundation model for analysis of 3D chest CT [29.0378459959757]
EXACTは3次元胸部CTの異常認識基盤モデルである。
2つの臨床スキャンと放射線学レポートから空間的に解決された表現を学習する。
EXACTは臨床的に関係のあるCTタスクに対して一貫した改善を示す。
論文 参考訳(メタデータ) (2026-04-27T07:57:47Z) - Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation [1.5532758127091075]
本研究では,現実的な推論環境下で意味情報と解剖情報を統合したテキスト・ツー・CT生成のための検索拡張手法を提案する。
CT-RATEデータセットを用いた実験により,検索拡張生成は,テキストのみのベースラインに比べて画像の忠実度と臨床整合性を向上することが示された。
本研究は,容積医用画像合成における意味的条件付けと解剖学的妥当性を橋渡しする,原則的かつスケーラブルな機構を導入する。
論文 参考訳(メタデータ) (2026-03-09T12:27:17Z) - Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation [51.509572354327986]
本稿では,CTRG(Computed Tomography Report Generation)に適した新しい2段階(構造とレポートの学習)フレームワークを提案する。
第1段階では、CT画像中の対応する構造を学習可能な構造特異的な視覚的クエリーの集合を観察し、その結果として得られる観察トークンと、それに伴う放射線学レポートから抽出された構造特異的なテキスト特徴とを、構造的に画像テキストのコントラストロスとで対比する。
第2段階では、視覚構造クエリを凍結し、各解剖学的構造を描写したクリティカルイメージパッチ埋め込みを選択するために使用し、メモリ消費を低減しつつ、無関係領域からの注意を最小化する。
論文 参考訳(メタデータ) (2026-03-05T07:07:07Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [45.248265283405004]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文 参考訳(メタデータ) (2025-05-21T05:16:45Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。