論文の概要: LangMamba: A Language-driven Mamba Framework for Low-dose CT Denoising with Vision-language Models
- arxiv url: http://arxiv.org/abs/2507.06140v1
- Date: Tue, 08 Jul 2025 16:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.341667
- Title: LangMamba: A Language-driven Mamba Framework for Low-dose CT Denoising with Vision-language Models
- Title(参考訳): LangMamba: 視覚言語モデルを用いた低用量CTのための言語駆動型Mambaフレームワーク
- Authors: Zhihao Chen, Tao Chen, Chenhui Wang, Qi Gao, Huidong Xie, Chuang Niu, Ge Wang, Hongming Shan,
- Abstract要約: 低線量CT(LDCT)は放射線被曝を減少させるが、しばしば画質を低下させる。
視覚言語モデル(VLM)の最近の進歩は、言語が構造化された意味情報をキャプチャするための強力なツールとなることを示唆している。
LDCT復調のための言語駆動型MambaフレームワークであるLangMambaを紹介する。
- 参考スコア(独自算出の注目度): 20.753316100847986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-dose computed tomography (LDCT) reduces radiation exposure but often degrades image quality, potentially compromising diagnostic accuracy. Existing deep learning-based denoising methods focus primarily on pixel-level mappings, overlooking the potential benefits of high-level semantic guidance. Recent advances in vision-language models (VLMs) suggest that language can serve as a powerful tool for capturing structured semantic information, offering new opportunities to improve LDCT reconstruction. In this paper, we introduce LangMamba, a Language-driven Mamba framework for LDCT denoising that leverages VLM-derived representations to enhance supervision from normal-dose CT (NDCT). LangMamba follows a two-stage learning strategy. First, we pre-train a Language-guided AutoEncoder (LangAE) that leverages frozen VLMs to map NDCT images into a semantic space enriched with anatomical information. Second, we synergize LangAE with two key components to guide LDCT denoising: Semantic-Enhanced Efficient Denoiser (SEED), which enhances NDCT-relevant local semantic while capturing global features with efficient Mamba mechanism, and Language-engaged Dual-space Alignment (LangDA) Loss, which ensures that denoised images align with NDCT in both perceptual and semantic spaces. Extensive experiments on two public datasets demonstrate that LangMamba outperforms conventional state-of-the-art methods, significantly improving detail preservation and visual fidelity. Remarkably, LangAE exhibits strong generalizability to unseen datasets, thereby reducing training costs. Furthermore, LangDA loss improves explainability by integrating language-guided insights into image reconstruction and offers a plug-and-play fashion. Our findings shed new light on the potential of language as a supervisory signal to advance LDCT denoising. The code is publicly available on https://github.com/hao1635/LangMamba.
- Abstract(参考訳): 低線量CT(LDCT)は放射線被曝を減少させるが、画像品質を低下させ、診断精度を低下させる可能性がある。
既存のディープラーニングに基づくdenoisingメソッドは、主にピクセルレベルのマッピングに焦点を当て、ハイレベルなセマンティックガイダンスの潜在的な利点を見越している。
視覚言語モデル(VLM)の最近の進歩は、言語が構造化された意味情報をキャプチャするための強力なツールとなり、LDCT再構成を改善する新たな機会を提供することを示唆している。
本稿では, LDCTのための言語駆動型マンバフレームワークであるLangMambaを紹介する。
LangMamba氏は2段階の学習戦略に従っている。
まず、凍結したVLMを利用してNDCT画像を解剖学的情報に富んだ意味空間にマッピングする言語誘導オートエンコーダ(LangAE)を事前訓練する。
第二に、LangAEをLDCTを誘導する2つの重要なコンポーネントと相乗し、効率的なMamba機構でグローバルな特徴を捉えながらNDCT関連ローカルセマンティクスを向上するSemantic-Enhanced Efficient Denoiser(SEED)と、知覚空間と意味空間の両方でNDCTと調和するLanguage-engaged Dual-space Alignment(LangDA) Lossを実現した。
2つの公開データセットに対する大規模な実験は、LangMambaが従来の最先端の手法よりも優れており、ディテールの保存と視覚的忠実性を大幅に改善していることを示している。
注目すべきなのは、LangAEはデータセットを表示不能にすることで、トレーニングコストを削減できることだ。
さらに、LangDAの損失は、画像再構成に言語誘導の洞察を統合することで説明可能性を改善し、プラグアンドプレイのスタイルを提供する。
LDCTを進行させるための補助信号として,言語の可能性に新たな光を当てた。
コードはhttps://github.com/hao1635/LangMambaで公開されている。
関連論文リスト
- LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models [44.578308186225826]
最近のオープンボキャブラリ検出器は、豊富な領域レベルのアノテートデータで有望な性能を達成する。
画像ごとに画像レベルの詳細なキャプションを生成することにより,大規模言語モデルと共用するオープン語彙検出器により,性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-31T08:27:31Z) - Decoding fMRI Data into Captions using Prefix Language Modeling [3.4328283704703866]
本稿では、DINOv2モデルによる画像の埋め込みを、対応するfMRI信号から予測することにより、脳信号を画像キャプションにデコードする方法を提案する。
また,fMRI信号から画像埋め込み空間への3次元畳み込みニューラルネットワークマッピングについて検討し,ボクセルの位置情報のより良い説明を行う。
論文 参考訳(メタデータ) (2025-01-05T15:06:25Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - DenoMamba: A fused state-space model for low-dose CT denoising [6.468495781611433]
低線量CT(LDCT)は放射線曝露に伴う潜在的なリスクを低くする。
LDCT denoisingは、基礎となる組織信号からの線量減少によって引き起こされるノイズを分離するために、データ駆動画像の事前学習を行うニューラルネットワークモデルに基づいている。
DenoMambaは、状態空間モデリング(SSM)に基づく、医療画像の短距離および長距離コンテキストを効率的にキャプチャする新しいデノナイジング手法である。
論文 参考訳(メタデータ) (2024-09-19T21:32:07Z) - Low-dose CT Denoising with Language-engaged Dual-space Alignment [21.172319554618497]
本稿では,低用量CTデノーミングモデルの最適化を目的としたLanguage-Engaged Dual-space Alignment Los (LEDA)を提案する。
我々の考えは、大きな言語モデル(LLM)を活用して、連続的な知覚空間と離散的な意味空間の両方において、鑑別CTおよび正常線量CT画像を整列させることである。
LEDAには2つのステップがある: まず、LCM誘導のCTオートエンコーダを事前訓練し、CT画像を連続的な高レベルな特徴にエンコードし、それらをトークン空間に量子化し、セマンティックトークンを生成する。
論文 参考訳(メタデータ) (2024-03-10T08:21:50Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。