論文の概要: Universal Medical Image Representation Learning with Compositional Decoders
- arxiv url: http://arxiv.org/abs/2409.19890v1
- Date: Mon, 30 Sep 2024 02:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:04:00.101097
- Title: Universal Medical Image Representation Learning with Compositional Decoders
- Title(参考訳): 合成デコーダを用いたユニバーサル医用画像表現学習
- Authors: Kaini Wang, Kaini Wang, Siping Zhou, Guangquan Zhou, Wentao Zhang, Bin Cui, Shuo Li,
- Abstract要約: 我々は,すべてのレベルでタスクをサポートする,分解分解型ユニバーサル医療イメージングパラダイム(UniMed)を開発した。
定義した入力キューに基づいて,画素とセマンティックという2種類の出力を予測できる分解デコーダを提案する。
入力空間と出力空間を統一した合成デコーダを導入し、異なるレベルのタスクアノテーションを離散トークン形式に標準化する。
- 参考スコア(独自算出の注目度): 34.324190238253784
- License:
- Abstract: Visual-language models have advanced the development of universal models, yet their application in medical imaging remains constrained by specific functional requirements and the limited data. Current general-purpose models are typically designed with task-specific branches and heads, which restricts the shared feature space and the flexibility of model. To address these challenges, we have developed a decomposed-composed universal medical imaging paradigm (UniMed) that supports tasks at all levels. To this end, we first propose a decomposed decoder that can predict two types of outputs -- pixel and semantic, based on a defined input queue. Additionally, we introduce a composed decoder that unifies the input and output spaces and standardizes task annotations across different levels into a discrete token format. The coupled design of these two components enables the model to flexibly combine tasks and mutual benefits. Moreover, our joint representation learning strategy skilfully leverages large amounts of unlabeled data and unsupervised loss, achieving efficient one-stage pretraining for more robust performance. Experimental results show that UniMed achieves state-of-the-art performance on eight datasets across all three tasks and exhibits strong zero-shot and 100-shot transferability. We will release the code and trained models upon the paper's acceptance.
- Abstract(参考訳): ビジュアル言語モデルはユニバーサルモデルの開発を進めてきたが、医療画像への応用は特定の機能要件と限られたデータによって制限されている。
現在の汎用モデルは、通常、タスク固有のブランチとヘッドで設計され、共有された特徴空間とモデルの柔軟性を制限する。
これらの課題に対処するため、我々は、あらゆるレベルでタスクをサポートする、分解分解されたユニバーサル医療イメージングパラダイム(UniMed)を開発した。
そこで我々はまず,定義した入力キューに基づいて,画素とセマンティックという2種類の出力を予測可能な分解デコーダを提案する。
さらに、入力空間と出力空間を統一した合成デコーダを導入し、異なるレベルのタスクアノテーションを離散トークン形式に標準化する。
これら2つのコンポーネントの結合設計により、モデルが柔軟にタスクと相互利益を組み合わせることができる。
さらに、我々の共同表現学習戦略は、大量のラベルのないデータと教師なしの損失を巧みに活用し、より堅牢なパフォーマンスのために効率的なワンステージ事前学習を実現する。
実験結果から、UniMedは3つのタスクすべてにわたる8つのデータセットで最先端のパフォーマンスを実現し、強力なゼロショットと100ショットの転送性を示した。
論文の受理に応じて、コードとモデルをトレーニングします。
関連論文リスト
- Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - UniSeg: A Prompt-driven Universal Segmentation Model as well as A Strong
Representation Learner [32.698493660851035]
マルチタスク画像分割のためのプロンプト駆動ユニバーサルモデル(UniSeg)を提案する。
我々は、進行中のタスクのモデル「アウェア」を早期に作成し、デコーダ全体のタスク固有のトレーニングを強化する。
提案したUniSegは,11の上流タスクにおいて,他のユニバーサルモデルやシングルタスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-07T06:28:51Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - HydraSum -- Disentangling Stylistic Features in Text Summarization using
Multi-Decoder Models [12.070474521259776]
現在のモデルの単一デコーダフレームワークを拡張した,新しい要約アーキテクチャであるHydraSumを紹介する。
提案モデルでは,各専門家,すなわちデコーダに対して,スタイリスティックな要約の学習と生成を奨励する。
トレーニングプロセスのガイド付きバージョンは、デコーダ間でどのサマリスタイルが分割されているかを明示的に規定することができる。
論文 参考訳(メタデータ) (2021-10-08T22:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。