論文の概要: VoxTell: Free-Text Promptable Universal 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2511.11450v1
- Date: Fri, 14 Nov 2025 16:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.716029
- Title: VoxTell: Free-Text Promptable Universal 3D Medical Image Segmentation
- Title(参考訳): VoxTell:自由テキストで使えるユニバーサルな3D医療画像セグメンテーション
- Authors: Maximilian Rokuss, Moritz Langenberg, Yannick Kirchhoff, Fabian Isensee, Benjamin Hamm, Constantin Ulrich, Sebastian Regnery, Lukas Bauer, Efthimios Katsigiannopulos, Tobias Norajitra, Klaus Maier-Hein,
- Abstract要約: VoxTell (VoxTell) は、テキスト・プロップされたボリューム・メディカル・イメージ・セグメンテーションのためのヴィジュアル言語モデルである。
単一の単語から完全な臨床文章まで、自由形式の記述を3Dマスクにマッピングする。
- 参考スコア(独自算出の注目度): 4.481648691186105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VoxTell, a vision-language model for text-prompted volumetric medical image segmentation. It maps free-form descriptions, from single words to full clinical sentences, to 3D masks. Trained on 62K+ CT, MRI, and PET volumes spanning over 1K anatomical and pathological classes, VoxTell uses multi-stage vision-language fusion across decoder layers to align textual and visual features at multiple scales. It achieves state-of-the-art zero-shot performance across modalities on unseen datasets, excelling on familiar concepts while generalizing to related unseen classes. Extensive experiments further demonstrate strong cross-modality transfer, robustness to linguistic variations and clinical language, as well as accurate instance-specific segmentation from real-world text. Code is available at: https://www.github.com/MIC-DKFZ/VoxTell
- Abstract(参考訳): 本稿では,VoxTellについて紹介する。
単一の単語から完全な臨床文章まで、自由形式の記述を3Dマスクにマッピングする。
62K以上のCT、MRI、PETボリュームを1K以上の解剖学的および病理学的クラスでトレーニングしたVoxTellは、デコーダ層にまたがる多段階の視覚言語融合を使用して、テキストおよび視覚的特徴を複数スケールで調整する。
未知のデータセットのモダリティをまたいだ最先端のゼロショットパフォーマンスを実現し、よく知られた概念に優れ、関連する未知のクラスに一般化する。
広範囲にわたる実験により、言語的変異や臨床言語に対する強い相互モダリティの伝達、および実世界のテキストからの正確なインスタンス固有セグメンテーションが示される。
コードは、https://www.github.com/MIC-DKFZ/VoxTellで入手できる。
関連論文リスト
- SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis [33.90335501244261]
音声と3次元CTのボリュームを共有表現空間で整列するコントラストモデルを訓練する。
実験では0ショット分類F1が0.623から0.705に改善され、性能差の88%が回復した。
これらの知見は,マルチモーダル・プレトレーニングにおけるテキストの代替手段としての音声を強調し,臨床実践における音声駆動診断支援ツールへの扉を開く。
論文 参考訳(メタデータ) (2025-09-24T15:17:21Z) - VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine [11.993301266706139]
我々は,3次元CTや関連する放射線学報告など,限られたボリュームデータを対象とした視覚言語事前学習フレームワーク「textbfVELVET-Med」を提案する。
本研究は,ボリューム医療画像とそれに対応する臨床物語に埋め込まれた,豊かな空間的・意味的関係を明らかにすることを目的としている。
結果として得られるエンコーダは強い転送可能性を示し、幅広い下流タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-16T17:08:43Z) - Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。
半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。
我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文 参考訳(メタデータ) (2025-07-16T16:29:30Z) - Towards Universal Text-driven CT Image Segmentation [4.76971404389011]
汎用テキスト駆動セグメンテーションのための大規模3次元CT画像を対象とした視覚言語モデルOpenVocabCTを提案する。
診断報告を,多粒性コントラスト学習のための大規模言語モデルを用いて,微細な臓器レベルの記述に分解する。
論文 参考訳(メタデータ) (2025-03-08T03:02:57Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。