Fugu-MT 論文翻訳(概要): LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation

論文の概要: LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation

arxiv url: http://arxiv.org/abs/2408.17347v1
Date: Fri, 30 Aug 2024 15:22:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 14:56:24.002137
Title: LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation
Title（参考訳）: LSMS:医療画像参照セグメンテーションのための言語誘導型大規模メドセグメンタ
Authors: Shuyi Ouyang, Jinyang Zhang, Xiangye Lin, Xilai Wang, Qingqing Chen, Yen-Wei Chen, Lanfen Lin,
Abstract要約: 医用画像参照(MIRS)は、与えられた言語表現に基づく画像の断片化を必要とする。 LSMS(Language-guided Scale-Aware MedSegmentor)というアプローチを提案する。 LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。
参考スコア（独自算出の注目度）: 7.912408164613206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conventional medical image segmentation methods have been found inadequate in facilitating physicians with the identification of specific lesions for diagnosis and treatment. Given the utility of text as an instructional format, we introduce a novel task termed Medical Image Referring Segmentation (MIRS), which requires segmenting specified lesions in images based on the given language expressions. Due to the varying object scales in medical images, MIRS demands robust vision-language modeling and comprehensive multi-scale interaction for precise localization and segmentation under linguistic guidance. However, existing medical image segmentation methods fall short in meeting these demands, resulting in insufficient segmentation accuracy. In response, we propose an approach named Language-guided Scale-aware MedSegmentor (LSMS), incorporating two appealing designs: (1)~a Scale-aware Vision-Language Attention module that leverages diverse convolutional kernels to acquire rich visual knowledge and interact closely with linguistic features, thereby enhancing lesion localization capability; (2)~a Full-Scale Decoder that globally models multi-modal features across various scales, capturing complementary information between scales to accurately outline lesion boundaries. Addressing the lack of suitable datasets for MIRS, we constructed a vision-language medical dataset called Reference Hepatic Lesion Segmentation (RefHL-Seg). This dataset comprises 2,283 abdominal CT slices from 231 cases, with corresponding textual annotations and segmentation masks for various liver lesions in images. We validated the performance of LSMS for MIRS and conventional medical image segmentation tasks across various datasets. Our LSMS consistently outperforms on all datasets with lower computational costs. The code and datasets will be released.
Abstract（参考訳）: 従来の医用画像分割法は、診断と治療のための特定の病変の特定を医師に促すのに不十分である。テキストを指導形式として利用することにより、与えられた言語表現に基づいて画像中の特定の病変をセグメント化する必要があるMIRS(Medicical Image Referring Segmentation)と呼ばれる新しいタスクを導入する。医用画像のさまざまな対象スケールのため、MIRSは、言語指導の下での正確な位置決めとセグメンテーションのために、堅牢な視覚言語モデリングと包括的マルチスケールインタラクションを要求する。しかし、これらの要求を満たすために既存の医用画像分割法は不足しており、セグメント化の精度は不十分である。言語誘導型スケール認識型MedSegmentor (LSMS) というアプローチを提案し,(1) 多様な畳み込みカーネルを利用して,豊富な視覚的知識を習得し,言語的特徴と密接な相互作用を行うことにより,病変の局所化能力を向上させる。(2) - 複数スケールのマルチモーダル特徴をグローバルにモデル化するフルスケールデコーダ。 MIRSに適したデータセットが欠如していることに対処し、RefHL-Seg(Reference Hepatic Lesion Segmentation)と呼ばれるビジョン言語医療データセットを構築した。本データセットは,231例の腹部CTスライス2,283例からなる。各種データセットにおけるMIRSと従来の医用画像分割作業における LSMS の性能を検証した。 LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。コードとデータセットがリリースされる。

関連論文リスト

Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。 MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文参考訳（メタデータ） (2025-08-07T03:41:41Z)
LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation [32.48945636401865]
CRoss-modal Interaction と Semantic Prompting をベースとした CRISP-SAM2 という新しいモデルを提案する。このモデルは、臓器のテキスト記述によって導かれる多臓器医療セグメンテーションへの有望なアプローチを示す。我々の手法は、視覚的およびテキスト的入力を相互に文脈化されたセマンティクスに変換することから始まる。
論文参考訳（メタデータ） (2025-06-29T07:05:27Z)
Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文参考訳（メタデータ） (2025-04-09T23:33:35Z)
CausalCLIPSeg: Unlocking CLIP's Potential in Referring Medical Image Segmentation with Causal Intervention [30.501326915750898]
本稿では医療画像セグメンテーションのためのエンドツーエンドフレームワークCausalCLIPSegを提案する。医療データのトレーニングを受けていないにもかかわらず、医療領域にCLIPの豊富な意味空間を強制する。 CausalCLIPSegは、モデルが急激な相関関係を学習する可能性がある境界バイアスを軽減するために、因果介入モジュールを導入している。
論文参考訳（メタデータ） (2025-03-20T08:46:24Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。 LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文参考訳（メタデータ） (2024-10-22T12:13:47Z)
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。 RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳（メタデータ） (2024-10-11T08:28:04Z)
MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文参考訳（メタデータ） (2024-09-28T23:10:37Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
SM2C: Boost the Semi-supervised Segmentation for Medical Image by using Meta Pseudo Labels and Mixed Images [13.971120210536995]
医用画像のセマンティックな特徴を学習する能力を向上させるために,SM2C(Scaling-up Mix with Multi-Class)を導入した。セグメンテーションオブジェクトの形状を多様化し、各サンプル内の意味情報を豊かにすることにより、SM2Cはそのポテンシャルを示す。提案したフレームワークは、最先端のフレームワークよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-03-24T04:39:40Z)
Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文参考訳（メタデータ） (2023-12-26T12:56:31Z)
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。 VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文参考訳（メタデータ） (2023-08-15T11:28:21Z)
Meta-Learners for Few-Shot Weakly-Supervised Medical Image Segmentation [2.781492199939609]
医用画像領域における弱教師付きセグメンテーションのための汎用メタラーニングフレームワークを提案する。画像分割に適応したメタラーナーの比較分析を行った。
論文参考訳（メタデータ） (2023-05-11T15:57:45Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文参考訳（メタデータ） (2023-03-20T06:26:49Z)
Self-Supervised Correction Learning for Semi-Supervised Biomedical Image Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2023-01-12T08:19:46Z)
PCRLv2: A Unified Visual Information Preservation Framework for Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文参考訳（メタデータ） (2023-01-02T17:47:27Z)
Cross-level Contrastive Learning and Consistency Constraint for Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文参考訳（メタデータ） (2022-02-08T15:12:11Z)
Towards Robust Partially Supervised Multi-Structure Medical Image Segmentation on Small-Scale Data [123.03252888189546]
データ不足下における部分教師付き学習(PSL)における方法論的ギャップを埋めるために,不確実性下でのビシナルラベル(VLUU)を提案する。マルチタスク学習とヴィジナルリスク最小化によって動機づけられたVLUUは、ビジナルラベルを生成することによって、部分的に教師付き問題を完全な教師付き問題に変換する。本研究は,ラベル効率の高い深層学習における新たな研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2020-11-28T16:31:00Z)
DONet: Dual Objective Networks for Skin Lesion Segmentation [77.9806410198298]
本稿では,皮膚病変のセグメンテーションを改善するために,Dual Objective Networks (DONet) という,シンプルで効果的なフレームワークを提案する。我々のDONetは2つの対称デコーダを採用し、異なる目標に近づくための異なる予測を生成する。皮膚内視鏡画像における多種多様な病変のスケールと形状の課題に対処するために,再帰的コンテキスト符号化モジュール(RCEM)を提案する。
論文参考訳（メタデータ） (2020-08-19T06:02:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。