論文の概要: T-Gated Adapter: A Lightweight Temporal Adapter for Vision-Language Medical Segmentation
- arxiv url: http://arxiv.org/abs/2604.08167v1
- Date: Thu, 09 Apr 2026 12:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.910141
- Title: T-Gated Adapter: A Lightweight Temporal Adapter for Vision-Language Medical Segmentation
- Title(参考訳): T-Gated Adapter : ビジョンランゲージ・メディカルセグメンテーションのための軽量時間適応器
- Authors: Pranjal Khadka,
- Abstract要約: 医用画像のセグメンテーションは伝統的に完全に監督された3Dアーキテクチャに依存している。
本稿では,隣接スライスコンテキストを直接モデルの視覚的トークン表現に注入することで,この問題に対処する時間的アダプタを提案する。
腹部13臓器の平均Diceは0.704で, 時間的文脈を伴わないベースラインVLMでは+0.206であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation traditionally relies on fully supervised 3D architectures that demand a large amount of dense, voxel-level annotations from clinical experts which is a prohibitively expensive process. Vision Language Models (VLMs) offer a powerful alternative by leveraging broad visual semantic representations learned from billions of images. However, when applied independently to 2D slices of a 3D scan, these models often produce noisy and anatomically implausible segmentations that violate the inherent continuity of anatomical structures. We propose a temporal adapter that addresses this by injecting adjacent-slice context directly into the model's visual token representations. The adapter comprises a temporal transformer attending across a fixed context window at the token level, a spatial context block refining within-slice representations, and an adaptive gate balancing temporal and single-slice features. Training on 30 labeled volumes from the FLARE22 dataset, our method achieves a mean Dice of 0.704 across 13 abdominal organs with a gain of +0.206 over the baseline VLM trained with no temporal context. Zero-shot evaluation on BTCV and AMOS22 datasets yields consistent improvements of +0.210 and +0.230, with the average cross-domain performance drop reducing from 38.0% to 24.9%. Furthermore, in a cross-modality evaluation on AMOS22 MRI with neither model receiving any MRI supervision, our method achieves a mean Dice of 0.366, outperforming a fully supervised 3D baseline (DynUNet, 0.224) trained exclusively on CT, suggesting that CLIP's visual semantic representations generalize more gracefully across imaging modalities than convolutional features.
- Abstract(参考訳): 医用画像のセグメンテーションは伝統的に、非常に高価なプロセスである臨床専門家から大量の高密度のボクセルレベルのアノテーションを要求する、完全に監督された3Dアーキテクチャに依存している。
視覚言語モデル(VLM)は、何十億もの画像から学んだ広い視覚的意味表現を活用することで、強力な代替手段を提供する。
しかし、3Dスキャンの2次元スライスに独立して適用すると、これらのモデルはしばしば、解剖学的構造の本質的な連続性に反するノイズと解剖学的に不明瞭なセグメンテーションを生じる。
本稿では,隣接スライスコンテキストを直接モデルの視覚的トークン表現に注入することで,この問題に対処する時間的アダプタを提案する。
トークンレベルにおける固定されたコンテキストウインドウを横断する時間変換器と、スライス内表現を精製する空間コンテキストブロックと、時空間と単スライスの特徴の適応ゲートバランスとを備える。
FLARE22データセットから30のラベル付きボリュームをトレーニングした結果, 腹腔内13臓器の平均Diceは0.704で, 時間的文脈を伴わないベースラインVLMでは+0.206であった。
BTCVとAMOS22データセットのゼロショット評価では+0.210と+0.230が一貫して改善され、クロスドメインのパフォーマンスは平均38.0%から24.9%に低下した。
さらに, AMOS22 MRIではMRIの監督を受けないモデルでは, 平均Diceは0.366であり, CTのみを専門とする完全教師付き3Dベースライン(DynUNet, 0.224)よりも優れており, CLIPの視覚的意味表現は, 畳み込み特徴よりも画像モダリティを優雅に一般化することが示唆された。
関連論文リスト
- Adapting Foundation Models for Annotation-Efficient Adnexal Mass Segmentation in Cine Images [4.42778347374376]
超音波による近接性質量評価は、主観的解釈と重要なサーバ間変動によって妨げられることが多い、困難な臨床課題である。
本稿では,事前訓練されたDINOv3基盤視変換器バックボーンのロバストなセマンティクスを活かしたラベル効率のセグメンテーションフレームワークを提案する。
提案手法は,U-Net,U-Net++,DeepLabV3,MAnetなどの完全教師付きベースラインと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-04-09T09:48:50Z) - MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - HANS-Net: Hyperbolic Convolution and Adaptive Temporal Attention for Accurate and Generalizable Liver and Tumor Segmentation in CT Imaging [2.7205074719266062]
腹部CT像における肝・腫瘍の正確なセグメンテーションは確実な診断と治療計画に重要である。
ニューラル表現とシナプティック・プラスティック・ネットワーク(HANS-Net)を用いたハイパーボリック・コンボリューションの導入
HANS-Netは、階層的幾何表現のための双曲的畳み込み、マルチスケールテクスチャ学習のためのウェーブレットインスパイアされた分解モジュール、暗黙の神経表現分岐を組み合わせた。
論文 参考訳(メタデータ) (2025-07-15T13:56:37Z) - PAM: A Propagation-Based Model for Segmenting Any 3D Objects across Multi-Modal Medical Images [11.373941923130305]
PAM(Propagating Anything Model)は、境界ボックスやスケッチのような2Dプロンプトを使用して、医療画像ボリュームの完全な3Dセグメンテーションを作成するセグメンテーションアプローチである。
MedSAMやSegVolのような既存のモデルでは、44の医療データセットと様々な種類のオブジェクトに対して平均18.1%以上のダイス類似度係数(DSC)が向上した。
論文 参考訳(メタデータ) (2024-08-25T13:42:47Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - UNesT: Local Spatial Representation Learning with Hierarchical
Transformer for Efficient Medical Segmentation [29.287521185541298]
我々は、UNesTが常に最先端の性能を達成し、その一般化性とデータ効率を評価することを示す。
我々は、UNesTが常に最先端の性能を達成し、その一般化性とデータ効率を評価することを示す。
論文 参考訳(メタデータ) (2022-09-28T19:14:38Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。