Fugu-MT 論文翻訳(概要): Language-guided Scale-aware MedSegmentor for Lesion Segmentation in Medical Imaging

論文の概要: Language-guided Scale-aware MedSegmentor for Lesion Segmentation in Medical Imaging

arxiv url: http://arxiv.org/abs/2408.17347v3
Date: Sat, 19 Apr 2025 17:27:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 13:15:33.187327
Title: Language-guided Scale-aware MedSegmentor for Lesion Segmentation in Medical Imaging
Title（参考訳）: 言語誘導型大規模医療用メドセグメンタ
Authors: Shuyi Ouyang, Jinyang Zhang, Xiangye Lin, Xilai Wang, Qingqing Chen, Yen-Wei Chen, Lanfen Lin,
Abstract要約: 臨床的には、特定の病変の分節化は診断精度と治療効率を著しく向上させる。本稿では,与えられたテキスト表現に基づいて,医療画像のターゲット病変をセグメント化する言語誘導型大規模メドセグメンタ(LSMS)を提案する。我々のLSMSは、計算コストを大幅に下げて、常に優れた性能を実現しています。
参考スコア（独自算出の注目度）: 7.912408164613206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In clinical practice, segmenting specific lesions based on the needs of physicians can significantly enhance diagnostic accuracy and treatment efficiency. However, conventional lesion segmentation models lack the flexibility to distinguish lesions according to specific requirements. Given the practical advantages of using text as guidance, we propose a novel model, Language-guided Scale-aware MedSegmentor (LSMS), which segments target lesions in medical images based on given textual expressions. We define this as a new task termed Referring Lesion Segmentation (RLS). To address the lack of suitable benchmarks for RLS, we construct a vision-language medical dataset named Reference Hepatic Lesion Segmentation (RefHL-Seg). LSMS incorporates two key designs: (i) Scale-Aware Vision-Language attention module, which performs visual feature extraction and vision-language alignment in parallel. By leveraging diverse convolutional kernels, this module acquires rich visual representations and interacts closely with linguistic features, thereby enhancing the model's capacity for precise object localization. (ii) Full-Scale Decoder, which globally models multi-modal features across multiple scales and captures complementary information between them to accurately delineate lesion boundaries. Additionally, we design a specialized loss function comprising both segmentation loss and vision-language contrastive loss to better optimize cross-modal learning. We validate the performance of LSMS on RLS as well as on conventional lesion segmentation tasks across multiple datasets. Our LSMS consistently achieves superior performance with significantly lower computational cost. Code and datasets will be released.
Abstract（参考訳）: 臨床実践では、医師のニーズに基づく特定の病変の分節化は、診断精度と治療効率を著しく向上させる。しかし, 従来の病変分割モデルは, 特定の要求に応じて病変を識別する柔軟性に欠けていた。テキストをガイダンスとして用いるという現実的な利点を生かして、与えられたテキスト表現に基づいて医療画像のターゲット病変をセグメント化するLSMS(Language-Guided Scale-Aware MedSegmentor)を提案する。我々はこれをReferring Lesion Segmentation (RLS)と呼ばれる新しいタスクと定義する。 RLSの適切なベンチマークの欠如に対処するため、RefHL-Seg(Reference Hepatic Lesion Segmentation)という視覚言語医学データセットを構築した。 LSMSには2つの重要な設計がある。 (i)視覚特徴抽出と視覚言語アライメントを並列に行うスケール・アウェア・ビジョン・ランゲージ・アテンション・モジュール。多様な畳み込みカーネルを活用することで、このモジュールはリッチな視覚表現を取得し、言語的特徴と密接な相互作用を行い、正確なオブジェクトローカライゼーションのためのモデルの能力を高める。 (ii) 複数スケールにわたるマルチモーダル特徴を世界規模でモデル化したフルスケールデコーダ。さらに,セグメンテーション損失と視覚言語によるコントラスト損失の両方からなる特殊損失関数を設計し,クロスモーダル学習を最適化する。複数のデータセットにまたがる従来の病変分割タスクと同様に、LSS上でのLSMSの性能を検証した。我々のLSMSは、計算コストを大幅に下げて、常に優れた性能を実現しています。コードとデータセットがリリースされる。

関連論文リスト

Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。 MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文参考訳（メタデータ） (2025-08-07T03:41:41Z)
LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation [32.48945636401865]
CRoss-modal Interaction と Semantic Prompting をベースとした CRISP-SAM2 という新しいモデルを提案する。このモデルは、臓器のテキスト記述によって導かれる多臓器医療セグメンテーションへの有望なアプローチを示す。我々の手法は、視覚的およびテキスト的入力を相互に文脈化されたセマンティクスに変換することから始まる。
論文参考訳（メタデータ） (2025-06-29T07:05:27Z)
Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文参考訳（メタデータ） (2025-04-09T23:33:35Z)
CausalCLIPSeg: Unlocking CLIP's Potential in Referring Medical Image Segmentation with Causal Intervention [30.501326915750898]
本稿では医療画像セグメンテーションのためのエンドツーエンドフレームワークCausalCLIPSegを提案する。医療データのトレーニングを受けていないにもかかわらず、医療領域にCLIPの豊富な意味空間を強制する。 CausalCLIPSegは、モデルが急激な相関関係を学習する可能性がある境界バイアスを軽減するために、因果介入モジュールを導入している。
論文参考訳（メタデータ） (2025-03-20T08:46:24Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。 LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文参考訳（メタデータ） (2024-10-22T12:13:47Z)
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。 RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳（メタデータ） (2024-10-11T08:28:04Z)
MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文参考訳（メタデータ） (2024-09-28T23:10:37Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
SM2C: Boost the Semi-supervised Segmentation for Medical Image by using Meta Pseudo Labels and Mixed Images [13.971120210536995]
医用画像のセマンティックな特徴を学習する能力を向上させるために,SM2C(Scaling-up Mix with Multi-Class)を導入した。セグメンテーションオブジェクトの形状を多様化し、各サンプル内の意味情報を豊かにすることにより、SM2Cはそのポテンシャルを示す。提案したフレームワークは、最先端のフレームワークよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-03-24T04:39:40Z)
Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文参考訳（メタデータ） (2023-12-26T12:56:31Z)
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。 VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文参考訳（メタデータ） (2023-08-15T11:28:21Z)
Meta-Learners for Few-Shot Weakly-Supervised Medical Image Segmentation [2.781492199939609]
医用画像領域における弱教師付きセグメンテーションのための汎用メタラーニングフレームワークを提案する。画像分割に適応したメタラーナーの比較分析を行った。
論文参考訳（メタデータ） (2023-05-11T15:57:45Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文参考訳（メタデータ） (2023-03-20T06:26:49Z)
Self-Supervised Correction Learning for Semi-Supervised Biomedical Image Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2023-01-12T08:19:46Z)
PCRLv2: A Unified Visual Information Preservation Framework for Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文参考訳（メタデータ） (2023-01-02T17:47:27Z)
Cross-level Contrastive Learning and Consistency Constraint for Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文参考訳（メタデータ） (2022-02-08T15:12:11Z)
Towards Robust Partially Supervised Multi-Structure Medical Image Segmentation on Small-Scale Data [123.03252888189546]
データ不足下における部分教師付き学習(PSL)における方法論的ギャップを埋めるために,不確実性下でのビシナルラベル(VLUU)を提案する。マルチタスク学習とヴィジナルリスク最小化によって動機づけられたVLUUは、ビジナルラベルを生成することによって、部分的に教師付き問題を完全な教師付き問題に変換する。本研究は,ラベル効率の高い深層学習における新たな研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2020-11-28T16:31:00Z)
DONet: Dual Objective Networks for Skin Lesion Segmentation [77.9806410198298]
本稿では,皮膚病変のセグメンテーションを改善するために,Dual Objective Networks (DONet) という,シンプルで効果的なフレームワークを提案する。我々のDONetは2つの対称デコーダを採用し、異なる目標に近づくための異なる予測を生成する。皮膚内視鏡画像における多種多様な病変のスケールと形状の課題に対処するために,再帰的コンテキスト符号化モジュール(RCEM)を提案する。
論文参考訳（メタデータ） (2020-08-19T06:02:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。