Fugu-MT 論文翻訳(概要): Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography

論文の概要: Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography

arxiv url: http://arxiv.org/abs/2405.18356v1
Date: Tue, 28 May 2024 16:55:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 17:30:42.183710
Title: Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography
Title（参考訳）: 腹部CTによる臓器切開・腫瘍検出のための普遍的および拡張的言語ビジョンモデル
Authors: Jie Liu, Yixiao Zhang, Kang Wang, Mehmet Can Yavuz, Xiaoxi Chen, Yixuan Yuan, Haoliang Li, Yang Yang, Alan Yuille, Yucheng Tang, Zongwei Zhou,
Abstract要約: 本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
参考スコア（独自算出の注目度）: 50.08496922659307
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advancement of artificial intelligence (AI) for organ segmentation and tumor detection is propelled by the growing availability of computed tomography (CT) datasets with detailed, per-voxel annotations. However, these AI models often struggle with flexibility for partially annotated datasets and extensibility for new classes due to limitations in the one-hot encoding, architectural design, and learning scheme. To overcome these limitations, we propose a universal, extensible framework enabling a single model, termed Universal Model, to deal with multiple public datasets and adapt to new classes (e.g., organs/tumors). Firstly, we introduce a novel language-driven parameter generator that leverages language embeddings from large language models, enriching semantic encoding compared with one-hot encoding. Secondly, the conventional output layers are replaced with lightweight, class-specific heads, allowing Universal Model to simultaneously segment 25 organs and six types of tumors and ease the addition of new classes. We train our Universal Model on 3,410 CT volumes assembled from 14 publicly available datasets and then test it on 6,173 CT volumes from four external datasets. Universal Model achieves first place on six CT tasks in the Medical Segmentation Decathlon (MSD) public leaderboard and leading performance on the Beyond The Cranial Vault (BTCV) dataset. In summary, Universal Model exhibits remarkable computational efficiency (6x faster than other dataset-specific models), demonstrates strong generalization across different hospitals, transfers well to numerous downstream tasks, and more importantly, facilitates the extensibility to new classes while alleviating the catastrophic forgetting of previously learned classes. Codes, models, and datasets are available at https://github.com/ljwztc/CLIP-Driven-Universal-Model
Abstract（参考訳）: 臓器のセグメンテーションと腫瘍検出のための人工知能(AI)の進歩は、詳細なvoxelアノテーションを備えたCTデータセットの増大によって促進される。しかしながら、これらのAIモデルは、ワンホットエンコーディング、アーキテクチャ設計、学習スキームの制限のために、部分的に注釈付きデータセットの柔軟性と新しいクラスの拡張性に苦慮することが多い。これらの制約を克服するために、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラス(臓器や腫瘍など)に適応できるようにする、普遍的拡張可能なフレームワークを提案する。まず,大規模言語モデルからの言語埋め込みを利用して,ワンホット符号化と比較して意味的エンコーディングを充実させる新しい言語駆動パラメータ生成手法を提案する。第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割し、新しいクラスの追加を容易にする。私たちは14の公開データセットから集められた3,410のCTボリュームでユニバーサルモデルをトレーニングし、4つの外部データセットから6,173のCTボリュームでテストします。 Universal Modelは、Medical Segmentation Decathlon(MSD)公開リーダボードで6つのCTタスクで1位を獲得し、Beyond The Cranial Vault(BTCV)データセットのパフォーマンスをリードする。要約すると、Universal Modelは驚くべき計算効率(他のデータセット固有のモデルより6倍速い)を示し、異なる病院にまたがる強力な一般化を示し、多くの下流タスクにうまく移行し、さらに重要なのは、以前に学んだクラスの破滅的な忘れを緩和しながら、新しいクラスへの拡張を容易にすることである。コード、モデル、データセットはhttps://github.com/ljwztc/CLIP-Driven-Universal-Modelで入手できる。

関連論文リスト

One Language-Free Foundation Model Is Enough for Universal Vision Anomaly Detection [65.11602552904456]
Universal Visual Anomaly Detection (AD) は、オープンかつダイナミックなシナリオに向けて、異常画像とセグメント異常領域を識別することを目的としている。現在の手法は、複雑なプロンプトエンジニアリング、精巧な適応モジュール、そして挑戦的な訓練戦略に苦しむことが多い。本稿では,Universal Vision Anomaly Detection(UniADet)のための,恥ずかしいほどシンプルで汎用的で効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-09T06:05:18Z)
Unleashing Diffusion and State Space Models for Medical Image Segmentation [5.4377770015041795]
既存のセグメンテーションモデルは、目に見えない臓器や腫瘍に遭遇するときに頑丈さを欠くことが多い。 DSMは、拡散と状態空間モデルを利用して、トレーニングデータ以外の未確認腫瘍カテゴリを分割するフレームワークである。 DSMは、オルガンレベルの視覚的特徴をキャプチャするために、オブジェクト認識機能グループ化戦略を使用してオルガンクエリを学習する。その後、拡散に基づく視覚的プロンプトに焦点を当てて腫瘍のクエリを洗練し、これまで見えなかった腫瘍の正確なセグメンテーションを可能にする。
論文参考訳（メタデータ） (2025-06-15T07:07:14Z)
Towards Universal Text-driven CT Image Segmentation [4.76971404389011]
汎用テキスト駆動セグメンテーションのための大規模3次元CT画像を対象とした視覚言語モデルOpenVocabCTを提案する。診断報告を,多粒性コントラスト学習のための大規模言語モデルを用いて,微細な臓器レベルの記述に分解する。
論文参考訳（メタデータ） (2025-03-08T03:02:57Z)
UNICORN: A Deep Learning Model for Integrating Multi-Stain Data in Histopathology [2.9389205138207277]
UNICORNは動脈硬化の重症度予測のための多段階組織学を処理できるマルチモーダルトランスフォーマーである。このアーキテクチャは、2段階のエンドツーエンドのトレーニング可能なモデルと、トランスフォーマーの自己保持ブロックを利用する特殊なモジュールから構成される。 UNICORNは0.67の分類精度を達成し、他の最先端モデルを上回った。
論文参考訳（メタデータ） (2024-09-26T12:13:52Z)
VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文参考訳（メタデータ） (2024-04-27T09:00:39Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts [62.55349777609194]
我々は、SATと呼ばれるテキストプロンプトによって駆動される放射線学的スキャンにおいて、任意のセグメンテーションを可能にするモデルを構築することを目指している。トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。我々はSAT-Nano(110Mパラメータ)とSAT-Pro(447Mパラメータ)をトレーニングし、データセット/サブセット毎にトレーニングされた72の専門家nnU-Netに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-12-28T18:16:00Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-15T17:55:05Z)
Continual Learning for Abdominal Multi-Organ and Tumor Segmentation [15.983529525062938]
本稿では,連続臓器と腫瘍のセグメンテーションに特化して設計されたイノベーティブなアーキテクチャを提案する。提案する設計では,従来の出力層を軽量なクラス固有のヘッド群に置き換える。これらのヘッドは、新しく導入され、以前に学習されたクラスの独立した予測を可能にし、古いクラスに対する新しいクラスの影響を効果的に最小化する。
論文参考訳（メタデータ） (2023-06-01T17:59:57Z)
Continual Segment: Towards a Single, Unified and Accessible Continual Segmentation Model of 143 Whole-body Organs in CT Scans [31.388497540849297]
全身143の臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。私たちは4つのデータセットから2500人以上の患者の3DCTをトレーニングし、検証しました。
論文参考訳（メタデータ） (2023-02-01T00:49:21Z)
CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection [36.08551407926805]
本稿では,Contrastive Language-Image Pre-trainingから学習したテキストをセグメンテーションモデルに組み込んだCLIP駆動ユニバーサルモデルを提案する。提案モデルは14のデータセットから作成され、合計3,410個のCTスキャンを使用してトレーニングを行い、さらに3つの追加データセットから6,162個の外部CTスキャンで評価する。
論文参考訳（メタデータ） (2023-01-02T18:07:44Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。