論文の概要: Frequency-domain Multi-modal Fusion for Language-guided Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.19719v1
- Date: Wed, 24 Sep 2025 03:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.675357
- Title: Frequency-domain Multi-modal Fusion for Language-guided Medical Image Segmentation
- Title(参考訳): 言語誘導型医用画像分割のための周波数領域多モード融合
- Authors: Bo Yu, Jianhua Yang, Zetao Du, Yan Huang, Chenglong Li, Liang Wang,
- Abstract要約: 臨床的テキストレポートをセマンティックガイダンスとして組み込むことにより、医用画像のセグメンテーションの精度を向上させることができる。
言語誘導型医用画像分割のための周波数領域マルチモーダルインタラクションモデル(FMISeg)を提案する。
- 参考スコア(独自算出の注目度): 15.021321486871658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically segmenting infected areas in radiological images is essential for diagnosing pulmonary infectious diseases. Recent studies have demonstrated that the accuracy of the medical image segmentation can be improved by incorporating clinical text reports as semantic guidance. However, the complex morphological changes of lesions and the inherent semantic gap between vision-language modalities prevent existing methods from effectively enhancing the representation of visual features and eliminating semantically irrelevant information, ultimately resulting in suboptimal segmentation performance. To address these problems, we propose a Frequency-domain Multi-modal Interaction model (FMISeg) for language-guided medical image segmentation. FMISeg is a late fusion model that establishes interaction between linguistic features and frequency-domain visual features in the decoder. Specifically, to enhance the visual representation, our method introduces a Frequency-domain Feature Bidirectional Interaction (FFBI) module to effectively fuse frequency-domain features. Furthermore, a Language-guided Frequency-domain Feature Interaction (LFFI) module is incorporated within the decoder to suppress semantically irrelevant visual features under the guidance of linguistic information. Experiments on QaTa-COV19 and MosMedData+ demonstrated that our method outperforms the state-of-the-art methods qualitatively and quantitatively.
- Abstract(参考訳): 放射線画像における感染部位の自動分離は、肺感染症の診断に不可欠である。
近年の研究では,臨床報告を意味指導として取り入れることで,医用画像分割の精度を向上できることが示されている。
しかし、病変の複雑な形態変化と視覚言語モダリティ間の固有の意味的ギャップは、既存の手法が視覚的特徴の表現を効果的に強化し、意味的に無関係な情報を排除し、最終的には最適部分分割性能をもたらす。
これらの問題に対処するために、言語誘導医療画像セグメント化のための周波数領域マルチモーダルインタラクションモデル(FMISeg)を提案する。
FMISegは遅延融合モデルであり、デコーダの言語的特徴と周波数領域の視覚的特徴との相互作用を確立する。
具体的には、視覚的表現を強化するために、周波数領域の特徴を効果的に融合させる周波数領域特徴双方向相互作用(FFBI)モジュールを導入する。
さらに、言語情報指導の下で意味的に無関係な視覚的特徴を抑制するために、言語誘導周波数領域特徴相互作用(LFFI)モジュールをデコーダに組み込む。
QaTa-COV19 と MosMedData+ の実験により,本手法は定性的かつ定量的に,最先端の手法よりも優れていることを示した。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer [4.672688418357066]
本稿では,雑音の存在下での頑健なセグメンテーションのためのトランスフォーマー拡散(DTS)モデルを提案する。
画像の形態的表現を解析する本モデルでは, 種々の医用画像モダリティにおいて, 従来のモデルよりも良好な結果が得られた。
論文 参考訳(メタデータ) (2024-08-01T07:35:54Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - DiffSeg: A Segmentation Model for Skin Lesions Based on Diffusion Difference [2.9082809324784082]
拡散差に基づく皮膚病変のセグメンテーションモデルDiffSegを紹介する。
マルチアウトプット能力は医師のアノテーションの振る舞いを模倣し、セグメンテーション結果の一貫性とあいまいさの可視化を容易にする。
我々は,ISIC 2018 ChallengeデータセットにおけるDiffSegの有効性を示す。
論文 参考訳(メタデータ) (2024-04-25T09:57:52Z) - FeaInfNet: Diagnosis in Medical Image with Feature-Driven Inference and
Visual Explanations [4.022446255159328]
解釈可能なディープラーニングモデルは、画像認識の分野で広く注目を集めている。
提案されている多くの解釈可能性モデルは、医用画像診断の精度と解釈性に問題がある。
これらの問題を解決するために,機能駆動型推論ネットワーク(FeaInfNet)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:09:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Unsupervised Bidirectional Cross-Modality Adaptation via Deeply
Synergistic Image and Feature Alignment for Medical Image Segmentation [73.84166499988443]
我々は、Synergistic Image and Feature Alignment (SIFA)と名付けられた新しい教師なしドメイン適応フレームワークを提案する。
提案するSIFAは、画像と特徴の両方の観点から、ドメインの相乗的アライメントを行う。
2つの異なるタスクに対する実験結果から,SIFA法は未ラベル対象画像のセグメンテーション性能を向上させるのに有効であることが示された。
論文 参考訳(メタデータ) (2020-02-06T13:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。