論文の概要: LViT: Language meets Vision Transformer in Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2206.14718v3
- Date: Sun, 25 Jun 2023 16:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 01:06:51.814831
- Title: LViT: Language meets Vision Transformer in Medical Image Segmentation
- Title(参考訳): LViT:医療画像セグメンテーションにおける視覚変換器
- Authors: Zihan Li, Yunxiang Li, Qingde Li, Puyang Wang, Dazhou Guo, Le Lu,
Dakai Jin, You Zhang, Qingqi Hong
- Abstract要約: LViT (Language meets Vision Transformer) を提案する。
LViTモデルでは,画像データの品質低下を補うために医療用テキストアノテーションが組み込まれている。
提案するLViTは,完全教師付きと半教師付きの両方でセグメンテーション性能が優れている。
- 参考スコア(独自算出の注目度): 12.755116093159035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has been widely used in medical image segmentation and other
aspects. However, the performance of existing medical image segmentation models
has been limited by the challenge of obtaining sufficient high-quality labeled
data due to the prohibitive data annotation cost. To alleviate this limitation,
we propose a new text-augmented medical image segmentation model LViT (Language
meets Vision Transformer). In our LViT model, medical text annotation is
incorporated to compensate for the quality deficiency in image data. In
addition, the text information can guide to generate pseudo labels of improved
quality in the semi-supervised learning. We also propose an Exponential Pseudo
label Iteration mechanism (EPI) to help the Pixel-Level Attention Module (PLAM)
preserve local image features in semi-supervised LViT setting. In our model, LV
(Language-Vision) loss is designed to supervise the training of unlabeled
images using text information directly. For evaluation, we construct three
multimodal medical segmentation datasets (image + text) containing X-rays and
CT images. Experimental results show that our proposed LViT has superior
segmentation performance in both fully-supervised and semi-supervised setting.
The code and datasets are available at https://github.com/HUANGLIZI/LViT.
- Abstract(参考訳): 深層学習は医用画像のセグメンテーションやその他の側面で広く用いられている。
しかし,既存の医用画像分割モデルの性能は,データアノテーションコストの制約により,十分な高品質のラベル付きデータを得るという課題により制限されている。
この制限を緩和するため,新たなテキスト拡張医療画像分割モデルLViT(Language meets Vision Transformer)を提案する。
LViTモデルでは,画像データの品質低下を補うために医療用テキストアノテーションが組み込まれている。
さらに、テキスト情報により、セミ教師付き学習における品質の向上した擬似ラベルを生成することができる。
また,ピクセルレベルアテンションモジュール (plam) が局所的な画像特徴を半教師付きlvit設定で保存するための指数的擬似ラベル反復機構 (epi) を提案する。
我々のモデルでは、LV損失はテキスト情報を直接利用してラベルなし画像のトレーニングを監督するように設計されている。
評価のために,X線とCT画像を含む3つのマルチモーダル医療セグメントデータセット(画像+テキスト)を構築した。
実験の結果,LViTは完全教師付きと半教師付きの両方でセグメンテーション性能に優れていた。
コードとデータセットはhttps://github.com/huanglizi/lvitで入手できる。
関連論文リスト
- LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation [7.912408164613206]
医用画像参照(MIRS)は、与えられた言語表現に基づく画像の断片化を必要とする。
LSMS(Language-guided Scale-Aware MedSegmentor)というアプローチを提案する。
LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。
論文 参考訳(メタデータ) (2024-08-30T15:22:13Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z) - MIPR:Automatic Annotation of Medical Images with Pixel Rearrangement [7.39560318487728]
医用画像画素再構成(MIPR)という,別の角度からの注釈付きデータの欠如を解決する新しい手法を提案する。
MIPRは画像編集と擬似ラベル技術を組み合わせてラベル付きデータを取得する。
ISIC18での実験では,本手法による分節処理が医師のアノテーションと同等かそれ以上の効果があることが示されている。
論文 参考訳(メタデータ) (2022-04-22T05:54:14Z) - Positional Contrastive Learning for Volumetric Medical Image
Segmentation [13.086140606803408]
コントラストデータペアを生成するための新しい位置コントラスト学習フレームワークを提案する。
提案手法は,半教師付き設定と移動学習の両方において既存の手法と比較して,セグメンテーション性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T22:15:28Z) - ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised
Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。
ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。
医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-24T04:05:12Z) - LC-GAN: Image-to-image Translation Based on Generative Adversarial
Network for Endoscopic Images [22.253074722129053]
本稿では,GAN(Generative Adversarial Network)に基づくイメージ・ツー・イメージ翻訳モデルLive-cadaver GAN(LC-GAN)を提案する。
実写画像セグメンテーションでは,まずLC-GANを用いて,実写画像から実写画像に変換し,実写画像データセットで訓練したモデルを用いて偽写画像のセグメンテーションを行う。
提案手法は画像から画像への変換性が向上し,領域間セグメンテーションタスクにおけるセグメンテーション性能が向上する。
論文 参考訳(メタデータ) (2020-03-10T19:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。