論文の概要: Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation
- arxiv url: http://arxiv.org/abs/2507.03585v1
- Date: Fri, 04 Jul 2025 13:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.790227
- Title: Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation
- Title(参考訳): Causal-SAM-LLM:ロバスト医療セグメントのためのCausal Reasonerとしての大規模言語モデル
- Authors: Tao Tang, Shijie Xu, Yiting Wu, Zhixiang Lu,
- Abstract要約: Causal-SAM-LLMはLarge Language Models(LLM)を因果推論の役割に高める新しいフレームワークである。
第一に、Linguistic Adrial Disentanglement (LAD)は視覚言語モデルを用いて、融合した画像スタイルのリッチでテキストによる記述を生成する。
第2に、Test-Time Causal Intervention (TCI)は、LLMが臨床者の自然言語コマンドを解釈し、セグメント化デコーダの特徴をリアルタイムで変調する対話的なメカニズムを提供する。
- 参考スコア(独自算出の注目度): 4.286815457787583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The clinical utility of deep learning models for medical image segmentation is severely constrained by their inability to generalize to unseen domains. This failure is often rooted in the models learning spurious correlations between anatomical content and domain-specific imaging styles. To overcome this fundamental challenge, we introduce Causal-SAM-LLM, a novel framework that elevates Large Language Models (LLMs) to the role of causal reasoners. Our framework, built upon a frozen Segment Anything Model (SAM) encoder, incorporates two synergistic innovations. First, Linguistic Adversarial Disentanglement (LAD) employs a Vision-Language Model to generate rich, textual descriptions of confounding image styles. By training the segmentation model's features to be contrastively dissimilar to these style descriptions, it learns a representation robustly purged of non-causal information. Second, Test-Time Causal Intervention (TCI) provides an interactive mechanism where an LLM interprets a clinician's natural language command to modulate the segmentation decoder's features in real-time, enabling targeted error correction. We conduct an extensive empirical evaluation on a composite benchmark from four public datasets (BTCV, CHAOS, AMOS, BraTS), assessing generalization under cross-scanner, cross-modality, and cross-anatomy settings. Causal-SAM-LLM establishes a new state of the art in out-of-distribution (OOD) robustness, improving the average Dice score by up to 6.2 points and reducing the Hausdorff Distance by 15.8 mm over the strongest baseline, all while using less than 9% of the full model's trainable parameters. Our work charts a new course for building robust, efficient, and interactively controllable medical AI systems.
- Abstract(参考訳): 医用画像セグメンテーションのための深層学習モデルの臨床的有用性は、目に見えない領域に一般化できないことによって著しく制約されている。
この失敗は、しばしば、解剖学的内容とドメイン固有のイメージングスタイルの間の急激な相関を学習するモデルに根ざしている。
この根本的な課題を克服するために,大言語モデル(LLM)を因果推論の役割に高める新しいフレームワークであるCausal-SAM-LLMを紹介した。
我々のフレームワークは、凍ったSegment Anything Model (SAM)エンコーダ上に構築されており、2つのシナジスティックな革新を取り入れています。
第一に、Linguistic Adversarial Disentanglement (LAD) はビジョン・ランゲージ・モデル(Vision-Language Model)を用いて、コンバウンド画像スタイルのリッチでテキストによる記述を生成する。
セグメンテーションモデルの特徴をこれらのスタイル記述と対照的に異なるように訓練することにより、非因果情報から頑健に抽出された表現を学習する。
第二に、Test-Time Causal Intervention (TCI)は、LLMがクリニックの自然言語コマンドを解釈し、セグメント化デコーダの機能をリアルタイムで修正し、ターゲットのエラー訂正を可能にする対話的なメカニズムを提供する。
我々は,4つの公開データセット (BTCV, CHAOS, AMOS, BraTS) の総合的な評価を行い, クロススキャン, クロスモーダル, クロス解剖学的設定による一般化を評価する。
Causal-SAM-LLMは、アウト・オブ・ディストリビューション(OOD)のロバスト性を新たに確立し、平均Diceスコアを最大6.2ポイント改善し、ハースドルフ距離を最強のベースラインで15.8mm削減する。
私たちの研究は、堅牢で効率的でインタラクティブに制御可能な医療AIシステムを構築するための新しいコースをグラフ化しています。
関連論文リスト
- Cross-Modal Clustering-Guided Negative Sampling for Self-Supervised Joint Learning from Medical Images and Reports [11.734906190235066]
本稿では,2次元のアイデアを用いたCross-Modal Cluster-Guided Negative Smpling (CM-CGNS)法を提案する。
まず、シングルモーダルドメインのローカルテキスト機能に使用されるk-meansクラスタリングを、クロスモーダルアテンションを通じてマルチモーダルドメインに拡張する。
第2に、マスクされた局所画像領域を再構成するために、クロスモーダルアテンションによって得られたローカルテキストと画像の特徴を利用する、CM-MIR(Cross-Modal Masked Image Reconstruction)モジュールを導入する。
論文 参考訳(メタデータ) (2025-06-13T11:08:16Z) - Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models [3.1277841304339065]
本研究は,臨床大言語モデル(cLLMs)の医療史エンティティ(MHEs)認識における性能評価である。
MTSamplesレポジトリから61例の外来臨床ノートに1,449例の診断を行った。
cLLMsはMHEの抽出に要する時間を20%以上短縮する可能性を示した。
論文 参考訳(メタデータ) (2025-03-30T02:00:56Z) - Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation [30.524999223901645]
完全教師なし方式で生成されるアノテーション効率のよいプロンプトを利用するSAM(Segment Anything Model)フレームワークを提案する。
我々は、モデルが高忠実度セグメンテーションを生成できるように最適なポリシーを設計するために、直接選好最適化手法を採用する。
X線, 超音波, 腹部CTなど多彩な領域にわたる肺分節, 乳房腫瘍分節, 臓器分節などのタスクにおける我々のフレームワークの最先端性能は, 低アノテーションデータシナリオにおけるその有効性を正当化するものである。
論文 参考訳(メタデータ) (2025-03-06T17:28:48Z) - MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。
提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。
また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文 参考訳(メタデータ) (2024-09-28T23:10:37Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Language-guided Scale-aware MedSegmentor for Lesion Segmentation in Medical Imaging [7.912408164613206]
臨床的には、特定の病変の分節化は診断精度と治療効率を著しく向上させる。
本稿では,与えられたテキスト表現に基づいて,医療画像のターゲット病変をセグメント化する言語誘導型大規模メドセグメンタ(LSMS)を提案する。
我々のLSMSは、計算コストを大幅に下げて、常に優れた性能を実現しています。
論文 参考訳(メタデータ) (2024-08-30T15:22:13Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。