Fugu-MT 論文翻訳(概要): PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models

論文の概要: PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models

arxiv url: http://arxiv.org/abs/2407.09979v1
Date: Sat, 13 Jul 2024 18:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 19:58:18.394409
Title: PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models
Title（参考訳）: PFPs:大規模視覚モデルと言語モデルを用いた様々な電位出力に対するプロンプト誘導型フレキシブルな病理分類
Authors: Can Cui, Ruining Deng, Junlin Guo, Quan Liu, Tianyuan Yao, Haichun Yang, Yuankai Huo,
Abstract要約: セグメンテーションの柔軟性を高めるために,従来のタスクトークンと並行して,LLM(Large Language Model)を通じて様々なタスクプロンプトを導入する。コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために微調整言語プロンプトを用いた計算効率の高いパイプラインを構築し,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較し,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計する。
参考スコア（独自算出の注目度）: 12.895542069443438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Vision Foundation Model has recently gained attention in medical image analysis. Its zero-shot learning capabilities accelerate AI deployment and enhance the generalizability of clinical applications. However, segmenting pathological images presents a special focus on the flexibility of segmentation targets. For instance, a single click on a Whole Slide Image (WSI) could signify a cell, a functional unit, or layers, adding layers of complexity to the segmentation tasks. Current models primarily predict potential outcomes but lack the flexibility needed for physician input. In this paper, we explore the potential of enhancing segmentation model flexibility by introducing various task prompts through a Large Language Model (LLM) alongside traditional task tokens. Our contribution is in four-fold: (1) we construct a computational-efficient pipeline that uses finetuned language prompts to guide flexible multi-class segmentation; (2) We compare segmentation performance with fixed prompts against free-text; (3) We design a multi-task kidney pathology segmentation dataset and the corresponding various free-text prompts; and (4) We evaluate our approach on the kidney pathology dataset, assessing its capacity to new cases during inference.
Abstract（参考訳）: Vision Foundation Modelは、最近、医療画像分析に注目を集めている。そのゼロショット学習能力は、AIの展開を加速し、臨床応用の一般化性を高める。しかし, セグメンテーション画像は, セグメンテーション対象の柔軟性に特に焦点が当てられている。例えば、WSI(Whole Slide Image)のワンクリックは、セル、機能ユニット、レイヤを意味し、セグメンテーションタスクに複雑なレイヤを追加する。現在のモデルは、主に潜在的な結果を予測するが、医師の入力に必要な柔軟性は欠如している。本稿では,従来のタスクトークンと並行して,Large Language Model (LLM) を通じて様々なタスクプロンプトを導入することにより,セグメンテーションモデルの柔軟性を高める可能性を検討する。コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために,微調整言語プロンプトを用いた計算効率の高いパイプラインを構築すること,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較すること,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計すること,(4)腎臓病理データセットに対するアプローチを評価し,推論中の新しいケースにその能力を評価すること,である。

関連論文リスト

CDPDNet: Integrating Text Guidance with Hybrid Vision Encoders for Medical Image Segmentation [8.56773843063124]
ほとんどの医用セグメンテーションデータセットは部分的にラベル付けされているだけである。本研究では,CLIP-DINO Prompt-Driven Network (CDPDNet)を提案する。 CDPDNetは、セルフ教師付きビジョントランスフォーマーとCLIPベースのテキスト埋め込みを組み合わせることで、これらの課題に対処するためにタスク固有のテキストプロンプトを導入している。
論文参考訳（メタデータ） (2025-05-25T03:23:58Z)
AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models [7.382887784956608]
本稿では,視覚言語とセグメンテーション基礎モデルを組み合わせたゼロショット自動セグメンテーションパイプラインを提案する。適切な分解とテスト時間適応により、我々の完全自動パイプラインは、弱い確率で対話的な基礎モデルと競争的に機能する。
論文参考訳（メタデータ） (2025-05-23T14:07:21Z)
Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文参考訳（メタデータ） (2025-04-09T23:33:35Z)
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文参考訳（メタデータ） (2025-03-10T16:26:11Z)
Towards Universal Text-driven CT Image Segmentation [4.76971404389011]
汎用テキスト駆動セグメンテーションのための大規模3次元CT画像を対象とした視覚言語モデルOpenVocabCTを提案する。診断報告を,多粒性コントラスト学習のための大規模言語モデルを用いて,微細な臓器レベルの記述に分解する。
論文参考訳（メタデータ） (2025-03-08T03:02:57Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
HATs: Hierarchical Adaptive Taxonomy Segmentation for Panoramic Pathology Image Analysis [19.04633470168871]
パノラマ画像分割は、形態学的に複雑で可変スケールの解剖学のため、顕著な課題である。本稿では, 腎臓構造のパノラマ像を, 詳細な解剖学的知見を生かして網羅的に把握することを目的とした, 階層型適応分類法を提案する。提案手法では,各領域,機能単位,細胞にまたがる空間的関係を多機能な「プラグ・アンド・プレイ」損失関数に変換する革新的HATs手法と,解剖学的階層化と大規模考察を,全パノラマ要素に統一された単純な行列表現に変換すること,そして,(3)。
論文参考訳（メタデータ） (2024-06-30T05:35:26Z)
A Classifier-Free Incremental Learning Framework for Scalable Medical Image Segmentation [6.591403935303867]
本稿では,単一分類器のないネットワークにおいて,可変数のクラスをセグメント化できる新しいセグメンテーションパラダイムを提案する。このネットワークは、コントラスト学習を用いて訓練され、簡単な解釈を容易にする識別的特徴表現を生成する。統合ネットワーク内での様々なクラス数処理における本手法の柔軟性とその漸進学習能力について述べる。
論文参考訳（メタデータ） (2024-05-25T19:05:07Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
VISION-MAE: A Foundation Model for Medical Image Segmentation and Classification [36.8105960525233]
医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。 VISION-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットでトレーニングされている。その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文参考訳（メタデータ） (2024-02-01T21:45:12Z)
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。 VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文参考訳（メタデータ） (2023-08-15T11:28:21Z)
Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。 CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。 13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-07-24T16:13:43Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文参考訳（メタデータ） (2021-08-02T10:42:52Z)
Generalized Organ Segmentation by Imitating One-shot Reasoning using Anatomical Correlation [55.1248480381153]
そこで我々は,アノテーション付きオルガンクラスから一般化されたオルガン概念を学習し,その概念を未知のクラスに転送するOrganNetを提案する。そこで,OrganNetは臓器形態の幅広い変化に効果的に抵抗でき,一発分節タスクで最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-30T13:41:12Z)
Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文参考訳（メタデータ） (2020-12-10T04:01:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。