論文の概要: Show and Segment: Universal Medical Image Segmentation via In-Context Learning
- arxiv url: http://arxiv.org/abs/2503.19359v1
- Date: Tue, 25 Mar 2025 05:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:30.525106
- Title: Show and Segment: Universal Medical Image Segmentation via In-Context Learning
- Title(参考訳): ショーとセグメンテーション:インテクスト学習によるユニバーサル医療画像セグメンテーション
- Authors: Yunhe Gao, Di Liu, Zhuowei Li, Yunsheng Li, Dongdong Chen, Mu Zhou, Dimitris N. Metaxas,
- Abstract要約: In-context Reference Image Guided framework for medical image segmentation について紹介する。
コアとなるIrisは、参照コンテキストイメージ-ラベルペアからタスク固有の情報を抽出する、軽量なコンテキストタスクエンコーディングモジュールを備えている。
タスクエンコーディングによって、Irisはワンショット推論やコンテキストサンプルアンサンブルからオブジェクトレベルのコンテキストサンプル検索、コンテキスト内検索に至るまで、さまざまな戦略をサポートする。
- 参考スコア(独自算出の注目度): 43.494896215216684
- License:
- Abstract: Medical image segmentation remains challenging due to the vast diversity of anatomical structures, imaging modalities, and segmentation tasks. While deep learning has made significant advances, current approaches struggle to generalize as they require task-specific training or fine-tuning on unseen classes. We present Iris, a novel In-context Reference Image guided Segmentation framework that enables flexible adaptation to novel tasks through the use of reference examples without fine-tuning. At its core, Iris features a lightweight context task encoding module that distills task-specific information from reference context image-label pairs. This rich context embedding information is used to guide the segmentation of target objects. By decoupling task encoding from inference, Iris supports diverse strategies from one-shot inference and context example ensemble to object-level context example retrieval and in-context tuning. Through comprehensive evaluation across twelve datasets, we demonstrate that Iris performs strongly compared to task-specific models on in-distribution tasks. On seven held-out datasets, Iris shows superior generalization to out-of-distribution data and unseen classes. Further, Iris's task encoding module can automatically discover anatomical relationships across datasets and modalities, offering insights into medical objects without explicit anatomical supervision.
- Abstract(参考訳): 医用画像のセグメンテーションは、解剖学的構造、画像のモダリティ、およびセグメンテーションタスクの多岐にわたるため、依然として困難である。
ディープラーニングは大きな進歩を遂げてきたが、現在のアプローチでは、タスク固有のトレーニングや、目に見えないクラスの微調整を必要とするため、一般化に苦慮している。
In-context Reference Image Guided SegmentationフレームワークであるIrisについて述べる。
コアとなるIrisは、参照コンテキストイメージ-ラベルペアからタスク固有の情報を抽出する、軽量なコンテキストタスクエンコーディングモジュールを備えている。
このリッチなコンテキスト埋め込み情報は、対象オブジェクトのセグメンテーションを導くために使用される。
推論からタスクエンコーディングを分離することにより、Irisはワンショット推論やコンテキストサンプルアンサンブルからオブジェクトレベルのコンテキストサンプル検索、コンテキスト内チューニングに至るまで、さまざまな戦略をサポートする。
12のデータセットにわたる総合的な評価を通じて、Irisは、分散タスクにおけるタスク固有モデルと比較して、強く機能することを示した。
7つの保持されたデータセットにおいて、Irisは配布外データや目に見えないクラスよりも優れた一般化を示している。
さらに、Irisのタスクエンコーディングモジュールは、データセットとモダリティをまたいだ解剖学的関係を自動的に検出し、明確な解剖学的監督なしに医学的対象への洞察を提供する。
関連論文リスト
- A Simple Image Segmentation Framework via In-Context Examples [59.319920526160466]
本稿では,テキスト内例を利用したシンプルな画像フレームワークであるSINEを提案する。
In-context Interactionモジュールを導入し、インコンテキスト情報を補完し、ターゲット画像とインコンテキストの例との相関関係を生成する。
様々なセグメンテーションタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-07T08:59:05Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation [19.987706084203523]
本稿では,新しいタスクであるPanoptic Perceptionと,より徹底的で普遍的なRSI解釈を実現するためのFineGrip(FineGrip)を提案する。
新しいタスクは、ピクセルレベル、インスタンスレベル、イメージレベル情報を統合して、普遍的なイメージ知覚を実現する。
FineGripデータセットには、2,649のリモートセンシングイメージ、20のフォアグラウンドに属する12,054のきめ細かいインスタンスセグメンテーションマスク、5つのクラスのための7,599のバックグラウンドセマンティックマスク、13,245のキャプション文が含まれている。
論文 参考訳(メタデータ) (2024-04-06T12:27:21Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Kartezio: Evolutionary Design of Explainable Pipelines for Biomedical
Image Analysis [0.0]
本稿では,透過的で容易に解釈可能な画像処理パイプラインを生成する計算戦略であるKartezioを紹介する。
それによって生成されたパイプラインは、インスタンスセグメンテーションタスクにおける最先端のDeep Learningアプローチに匹敵する精度を示す。
また、実世界の4つのユースケースにおけるセマンティックスとインスタンスセグメンテーションの問題を解決するためにKartezioをデプロイしました。
論文 参考訳(メタデータ) (2023-02-28T17:02:35Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。