論文の概要: Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs
- arxiv url: http://arxiv.org/abs/2208.08166v1
- Date: Wed, 17 Aug 2022 09:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 13:04:26.843914
- Title: Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs
- Title(参考訳): 胸部X線写真におけるマルチラベル病分類のためのデータ効率の良い視覚変換器
- Authors: Finn Behrendt, Debayan Bhattacharya, Julia Kr\"uger, Roland Opfer,
Alexander Schlaefer
- Abstract要約: 視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
- 参考スコア(独自算出の注目度): 55.78588835407174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiographs are a versatile diagnostic tool for the detection and assessment
of pathologies, for treatment planning or for navigation and localization
purposes in clinical interventions. However, their interpretation and
assessment by radiologists can be tedious and error-prone. Thus, a wide variety
of deep learning methods have been proposed to support radiologists
interpreting radiographs. Mostly, these approaches rely on convolutional neural
networks (CNN) to extract features from images. Especially for the multi-label
classification of pathologies on chest radiographs (Chest X-Rays, CXR), CNNs
have proven to be well suited. On the Contrary, Vision Transformers (ViTs) have
not been applied to this task despite their high classification performance on
generic images and interpretable local saliency maps which could add value to
clinical interventions. ViTs do not rely on convolutions but on patch-based
self-attention and in contrast to CNNs, no prior knowledge of local
connectivity is present. While this leads to increased capacity, ViTs typically
require an excessive amount of training data which represents a hurdle in the
medical domain as high costs are associated with collecting large medical data
sets. In this work, we systematically compare the classification performance of
ViTs and CNNs for different data set sizes and evaluate more data-efficient ViT
variants (DeiT). Our results show that while the performance between ViTs and
CNNs is on par with a small benefit for ViTs, DeiTs outperform the former if a
reasonably large data set is available for training.
- Abstract(参考訳): radiographsは、病態の検出と評価、治療計画、または臨床介入におけるナビゲーションおよびローカライズのための多用途な診断ツールである。
しかし、放射線科医による解釈と評価は退屈で誤りやすい。
そこで,ラジオグラフィーの解釈を支援するため,様々な深層学習手法が提案されている。
主に、これらのアプローチは画像から特徴を抽出するために畳み込みニューラルネットワーク(CNN)に依存している。
特に胸部X線写真(Chest X-rays, CXR)の病理分類では, CNNが好適であることが証明されている。
それとは対照的に視覚トランスフォーマー(vits)は、汎用画像の分類性能が高く、臨床介入に付加価値を与えるような局所的塩分マップがあるにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
これは容量の増加につながるが、vitsは通常、大きな医療データセットの収集にコストがかかるため、医療領域におけるハードルを示す過剰な量のトレーニングデータを必要とする。
本研究では,異なるデータセットサイズに対するViTとCNNの分類性能を体系的に比較し,よりデータ効率のよいViT変種(DeiT)を評価する。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニングに十分な大容量データセットが利用できる場合,前者よりも優れていた。
関連論文リスト
- CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - A Recent Survey of Vision Transformers for Medical Image Segmentation [2.4895533667182703]
ヴィジュアルトランスフォーマー(ViT)は、医用画像セグメンテーションの課題に対処するための有望な技術として登場した。
マルチスケールアテンション機構により、遠方構造間の長距離依存を効果的にモデル化することができる。
近年、研究者らは、ハイブリッドビジョントランスフォーマー(HVT)として知られるアーキテクチャにCNNを組み込む様々なViTベースのアプローチを考案した。
論文 参考訳(メタデータ) (2023-12-01T14:54:44Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - EchoCoTr: Estimation of the Left Ventricular Ejection Fraction from
Spatiotemporal Echocardiography [0.0]
心エコー法などの医用ビデオデータのトレーニングにおいて,通常直面する限界に対処する手法を提案する。
超音波ビデオにおける左室放出率(LVEF)の推定に,視覚変換器とCNNの強度を利用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T11:01:59Z) - RadTex: Learning Efficient Radiograph Representations from Text Reports [7.090896766922791]
我々は,放射線学報告を利用して,限られたラベル付きデータを用いた医用画像分類性能を向上させるための,データ効率のよい学習フレームワークを構築した。
本モデルは,ラベル付きトレーニングデータに制限がある場合,ImageNetによる事前学習よりも高い分類性能を実現する。
論文 参考訳(メタデータ) (2022-08-05T15:06:26Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - An Analysis of the Influence of Transfer Learning When Measuring the
Tortuosity of Blood Vessels [0.7646713951724011]
畳み込みニューラルネットワーク(CNN)は血管のセグメンテーションに関して優れた結果をもたらすことが示されている。
しかし、事前トレーニングされたCNNが、トレーニングされていないデータセットに適用した場合、ダウンストリームタスクに対して堅牢で偏見のない結果を提供できるかどうかはまだ不明だ。
我々は,データセット上のスクラッチからトレーニングしたCNNが取得したトルチューシティ値が,異なるトルチューシティ統計を持つデータセット上で事前学習した微調整ネットワークのものと一致しないことを示す。
論文 参考訳(メタデータ) (2021-11-19T14:55:52Z) - Voice-assisted Image Labelling for Endoscopic Ultrasound Classification
using Neural Networks [48.732863591145964]
本稿では,臨床医が提示した生音声からのEUS画像にラベルを付けるマルチモーダル畳み込みニューラルネットワークアーキテクチャを提案する。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
論文 参考訳(メタデータ) (2021-10-12T21:22:24Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。