論文の概要: Semantic-Topological Graph Reasoning for Language-Guided Pulmonary Screening
- arxiv url: http://arxiv.org/abs/2604.05620v1
- Date: Tue, 07 Apr 2026 09:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.73102
- Title: Semantic-Topological Graph Reasoning for Language-Guided Pulmonary Screening
- Title(参考訳): 言語誘導肺検診における意味的トポロジカルグラフ推論
- Authors: Chenyu Xue, Yiran Liu, Mian Zhou, Jionglong Su, Zhixiang Lu,
- Abstract要約: 本稿では,言語誘導肺検診のためのセマンティック・トポロジカルグラフ推論フレームワークを提案する。
我々のアプローチは、視覚基盤モデルのゼロショットデライン化により、大規模言語モデルの推論能力をエレガントに相乗化します。
LIDC-IDRIでは81.5%のDice similarity Coefficient(DSC)を達成し、LISAのようなLLMベースのツールを5%以上上回っている。
- 参考スコア(独自算出の注目度): 9.742485458627343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation driven by free-text clinical instructions is a critical frontier in computer-aided diagnosis. However, existing multimodal and foundation models struggle with the semantic ambiguity of clinical reports and fail to disambiguate complex anatomical overlaps in low-contrast scans. Furthermore, fully fine-tuning these massive architectures on limited medical datasets invariably leads to severe overfitting. To address these challenges, we propose a novel Semantic-Topological Graph Reasoning (STGR) framework for language-guided pulmonary screening. Our approach elegantly synergizes the reasoning capabilities of large language models (LLaMA-3-V) with the zero-shot delineation of vision foundation models (MedSAM). Specifically, we introduce a Text-to-Vision Intent Distillation (TVID) module to extract precise diagnostic guidance. To resolve anatomical ambiguity, we formulate mask selection as a dynamic graph reasoning problem, where candidate lesions are modeled as nodes and edges capture spatial and semantic affinities. To ensure deployment feasibility, we introduce a Selective Asymmetric Fine-Tuning (SAFT) strategy that updates less than 1% of the parameters. Rigorous 5-fold cross-validation on the LIDC-IDRI and LNDb datasets demonstrates that our framework establishes a new state-of-the-art. Notably, it achieves an 81.5% Dice Similarity Coefficient (DSC) on LIDC-IDRI, outperforming leading LLM-based tools like LISA by over 5%. Crucially, our SAFT strategy acts as a powerful regularizer, yielding exceptional cross-fold stability (0.6% DSC variance) and paving the way for robust, context-aware clinical deployment.
- Abstract(参考訳): フリーテキスト臨床指導による医用画像のセグメンテーションは、コンピュータ支援診断における重要なフロンティアである。
しかし、既存のマルチモーダルモデルとファンデーションモデルは、臨床報告の意味的曖昧さに苦慮し、低コントラストスキャンにおいて複雑な解剖学的重複を曖昧にしない。
さらに、これらの大規模なアーキテクチャを限られた医療データセットで完全に微調整することで、厳しい過度なオーバーフィッティングがもたらされる。
これらの課題に対処するために,言語誘導肺検診のためのセマンティック・トポロジカルグラフ推論(STGR)フレームワークを提案する。
提案手法は,大規模言語モデル (LLaMA-3-V) の推論能力を,視覚基盤モデル (MedSAM) のゼロショットデライン化とエレガントに同期させる。
具体的には,正確な診断指導を抽出するために,テキスト・ツー・ビジョン・インテント蒸留(TVID)モジュールを導入する。
解剖学的な曖昧さを解決するために,マスク選択を動的グラフ推論問題として定式化し,候補病変をノードとしてモデル化し,エッジが空間的・意味的親和性を捉える。
デプロイメントの実現性を確保するため、パラメータの1%未満を更新する選択的非対称細調整(SAFT)戦略を導入する。
LIDC-IDRIおよびLNDbデータセット上の厳密な5倍のクロスバリデーションは、我々のフレームワークが新しい最先端技術を確立していることを示す。
特に、LIDC-IDRI上で81.5%のDice similarity Coefficient(DSC)を達成し、LISAのようなLLMベースのツールを5%以上上回っている。
重要なことは、当社のSAFT戦略は強力なレギュラーライザとして機能し、例外的なクロスフォールド安定性(DSC分散率0.6%)と、堅牢でコンテキスト対応な臨床展開への道を開く。
関連論文リスト
- An Explainable Vision-Language Model Framework with Adaptive PID-Tversky Loss for Lumbar Spinal Stenosis Diagnosis [1.2871968485402088]
既存の視覚言語モデルは、臨床セグメント化データセットでよく見られる極端なクラス不均衡に対処できない。
本稿では、これらの制限を克服するために、エンドツーエンドの説明可能な視覚言語モデルフレームワークを提案する。
診断精度は90.69%,マクロ平均Diceスコアは0.9512,CIDErスコアは92.80%であった。
論文 参考訳(メタデータ) (2026-04-02T20:18:35Z) - Uncertainty-Aware Vision-Language Segmentation for Medical Imaging [12.545486211087791]
医療診断のための新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。
本稿では,高効率なクロスモーダル融合を実現するために,軽量なステートスペースミキサ(SSMix)を備えたModality Decoding Attention Block (MoDAB)を提案する。
本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
論文 参考訳(メタデータ) (2026-02-16T06:27:51Z) - Cross-Linguistic Persona-Driven Data Synthesis for Robust Multimodal Cognitive Decline Detection [20.599682298329213]
我々は、制御可能なゼロショットマルチモーダルデータ合成とChain-of-Thought deductionファインチューニングを統合する新しいフレームワークであるSynCogを紹介する。
この生成パラダイムは、様々な言語にまたがる臨床コーパスの迅速でゼロショット展開を可能にする。
ADReSSとADReSSoベンチマークの実験は、限られた臨床データを合成表現型で増強することで、競争力のある診断性能が得られることを示した。
論文 参考訳(メタデータ) (2026-02-08T14:10:05Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Revisiting Computer-Aided Tuberculosis Diagnosis [56.80999479735375]
結核(TB)は世界的な健康上の脅威であり、毎年何百万人もの死者を出している。
深層学習を用いたコンピュータ支援結核診断 (CTD) は有望であるが, 限られたトレーニングデータによって進行が妨げられている。
結核X線(TBX11K)データセットは11,200個の胸部X線(CXR)画像とそれに対応するTB領域のバウンディングボックスアノテーションを含む。
このデータセットは、高品質なCTDのための洗練された検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-06T08:27:48Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。