Fugu-MT 論文翻訳(概要): TP-DRSeg: Improving Diabetic Retinopathy Lesion Segmentation with Explicit Text-Prompts Assisted SAM

論文の概要: TP-DRSeg: Improving Diabetic Retinopathy Lesion Segmentation with Explicit Text-Prompts Assisted SAM

arxiv url: http://arxiv.org/abs/2406.15764v1
Date: Sat, 22 Jun 2024 07:00:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 20:45:08.287065
Title: TP-DRSeg: Improving Diabetic Retinopathy Lesion Segmentation with Explicit Text-Prompts Assisted SAM
Title（参考訳）: TP-DRSeg:Explicit Text-Prompts Assisted SAMによる糖尿病網膜症病変分画の改善
Authors: Wenxue Li, Xinyu Xiong, Peng Xia, Lie Ju, Zongyuan Ge,
Abstract要約: そこで本研究では,テキストプロンプト型糖尿病網膜症(DR)病変のセグメンテーションのためにSAMをカスタマイズする新しいフレームワークを提案する。私たちの中核となる考え方は、医学的な事前知識を視覚のみのセグメンテーションネットワークに注入するために言語キューを活用することです。具体的には、医療概念認識における視覚言語モデルの可能性を明らかにするために、明示的な事前エンコーダを提案する。
参考スコア（独自算出の注目度）: 13.960042520448646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large foundation models, such as the Segment Anything Model (SAM), have demonstrated considerable promise across various tasks. Despite their progress, these models still encounter challenges in specialized medical image analysis, especially in recognizing subtle inter-class differences in Diabetic Retinopathy (DR) lesion segmentation. In this paper, we propose a novel framework that customizes SAM for text-prompted DR lesion segmentation, termed TP-DRSeg. Our core idea involves exploiting language cues to inject medical prior knowledge into the vision-only segmentation network, thereby combining the advantages of different foundation models and enhancing the credibility of segmentation. Specifically, to unleash the potential of vision-language models in the recognition of medical concepts, we propose an explicit prior encoder that transfers implicit medical concepts into explicit prior knowledge, providing explainable clues to excavate low-level features associated with lesions. Furthermore, we design a prior-aligned injector to inject explicit priors into the segmentation process, which can facilitate knowledge sharing across multi-modality features and allow our framework to be trained in a parameter-efficient fashion. Experimental results demonstrate the superiority of our framework over other traditional models and foundation model variants.
Abstract（参考訳）: SAM(Segment Anything Model)のような大規模基盤モデルの最近の進歩は、様々なタスクにおいて大きな可能性を証明している。それらの進歩にもかかわらず、これらのモデルは、特に糖尿病網膜症(DR)病変の微妙な相違を認識する際に、専門的な医用画像解析における課題に直面している。本稿では,テキストプロンプされたDR病変のセグメンテーションのためにSAMをカスタマイズする新しいフレームワーク,TP-DRSegを提案する。我々の中核となる考え方は、医学的な事前知識を視覚のみのセグメンテーションネットワークに注入するために言語手がかりを活用することであり、それによって異なる基礎モデルの利点を組み合わせ、セグメンテーションの信頼性を高めることである。具体的には、医用概念認識における視覚言語モデルの可能性を解き明かすために、暗黙の医学的概念を明示的な事前知識に伝達する明示的な事前エンコーダを提案し、病変に関連する低レベル特徴を発掘するための説明可能な手がかりを提供する。さらに,マルチモーダルな特徴間の知識共有を容易にし,パラメータ効率のよい手法でフレームワークを訓練できるように,セグメンテーションプロセスに明示的な事前を注入するための事前整合型インジェクタを設計する。実験により、従来のモデルや基礎モデルよりもフレームワークの方が優れていることが示された。

関連論文リスト

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models [15.976622378615714]
医用画像のセグメンテーションは臨床的な意思決定において重要な役割を担い、病変の正確な局所化と指導的介入を可能にする。現在の説明手法は主に分類作業に重点を置いており、セグメンテーション領域は比較的過小評価されている。本稿では、因果推論フレームワークを用いて、平均処理効果(ATE)を指標として、入力領域やネットワークコンポーネントが対象セグメンテーション領域に与える影響を推定するセグメンテーションタスクの説明モデルを提案する。
論文参考訳（メタデータ） (2026-02-24T03:26:27Z)
MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文参考訳（メタデータ） (2025-10-24T02:11:05Z)
Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。 SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文参考訳（メタデータ） (2025-09-30T08:59:06Z)
RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。 RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文参考訳（メタデータ） (2025-09-24T10:36:14Z)
Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。 MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文参考訳（メタデータ） (2025-08-07T03:41:41Z)
Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文参考訳（メタデータ） (2025-07-29T13:31:24Z)
Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文参考訳（メタデータ） (2025-04-09T23:33:35Z)
Dynamically evolving segment anything model with continuous learning for medical image segmentation [50.92344083895528]
ダイナミックに進化する医療画像セグメンテーションモデルであるEvoSAMを紹介する。 EvoSAMは、継続的に拡張されるシナリオとタスクの配列から新しい知識を蓄積する。血管セグメンテーションに関する外科医による実験により、EvoSAMはユーザプロンプトに基づいてセグメンテーション効率を高めることが確認された。
論文参考訳（メタデータ） (2025-03-08T14:37:52Z)
A Comprehensive Review of U-Net and Its Variants: Advances and Applications in Medical Image Segmentation [0.0]
本稿では, 画像モダリティに基づいて医用画像データセットを分類し, U-Netとその各種改善モデルについて検討する。 U-NetとU-Netの変種アルゴリズムの4つの中心的改善機構を要約する。今後の進歩に向けた潜在的な道筋と戦略を提案する。
論文参考訳（メタデータ） (2025-02-09T13:11:51Z)
Adversarial Vessel-Unveiling Semi-Supervised Segmentation for Retinopathy of Prematurity Diagnosis [9.683492465191241]
広範囲な手動血管アノテーションを必要とせず,ROP研究を進めるための半教師付きセグメンテーションフレームワークを提案する。ラベル付きデータにのみ依存する従来の手法とは異なり,本手法では不確実性重み付き容器公開モジュールとドメイン対向学習を統合している。我々は、パブリックデータセットと社内ROPデータセットに対するアプローチを検証し、複数の評価指標で優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-14T02:40:34Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。 LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文参考訳（メタデータ） (2024-09-29T03:56:21Z)
MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文参考訳（メタデータ） (2024-09-04T03:46:17Z)
Beyond Pixel-Wise Supervision for Medical Image Segmentation: From Traditional Models to Foundation Models [7.987836953849249]
既存のセグメンテーションアルゴリズムは主に、トレーニング用のピクセル単位のアノテーションを備えた完全なアノテーション付きイメージの可用性に依存している。この課題を軽減するため、弱いアノテーションで深層モデルをトレーニングできるセグメンテーション手法の開発に注目が集まっている。視覚基盤モデルの出現、特にSAM(Segment Anything Model)は、弱いアノテーションを使ったセグメンテーションタスクの革新的な機能を導入した。
論文参考訳（メタデータ） (2024-04-20T02:40:49Z)
Towards Concept-based Interpretability of Skin Lesion Diagnosis using Vision-Language Models [0.0]
視覚言語モデルを用いて,多数の概念アノテーションを用いたサンプルへの依存を緩和できることを示す。特に,概念に基づく記述をテキスト埋め込みとして用いて,CLIPを皮膚病変分類の下流タスクに適用するための埋め込み学習戦略を提案する。
論文参考訳（メタデータ） (2023-11-24T08:31:34Z)
Self-Prompting Large Vision Models for Few-Shot Medical Image Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。複数のデータセットで競合する結果を得る。
論文参考訳（メタデータ） (2023-08-15T08:20:07Z)
Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-15T17:55:05Z)
Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-04-10T17:58:22Z)
Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文参考訳（メタデータ） (2020-12-10T04:01:07Z)
Towards Cross-modality Medical Image Segmentation with Online Mutual Knowledge Distillation [71.89867233426597]
本稿では,あるモダリティから学習した事前知識を活用し,別のモダリティにおけるセグメンテーション性能を向上させることを目的とする。モーダル共有知識を徹底的に活用する新しい相互知識蒸留法を提案する。 MMWHS 2017, MMWHS 2017 を用いた多クラス心筋セグメンテーション実験の結果, CT セグメンテーションに大きな改善が得られた。
論文参考訳（メタデータ） (2020-10-04T10:25:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。