論文の概要: LT-ViT: A Vision Transformer for multi-label Chest X-ray classification
- arxiv url: http://arxiv.org/abs/2311.07263v1
- Date: Mon, 13 Nov 2023 12:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 14:38:03.291232
- Title: LT-ViT: A Vision Transformer for multi-label Chest X-ray classification
- Title(参考訳): LT-ViT:マルチラベル胸部X線分類用視覚変換器
- Authors: Umar Marikkar and Sara Atito and Muhammad Awais and Adam Mahdi
- Abstract要約: ヴィジュアルトランスフォーマー(ViT)は医用イメージングタスクに広く採用されており、胸部X線(CXR)の視覚言語訓練に向けた取り組みも行われている。
我々は,画像トークンとラベルを表すランダムな補助トークンを併用した変換器LT-ViTを開発した。
- 参考スコア(独自算出の注目度): 2.3022732986382213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) are widely adopted in medical imaging tasks, and
some existing efforts have been directed towards vision-language training for
Chest X-rays (CXRs). However, we envision that there still exists a potential
for improvement in vision-only training for CXRs using ViTs, by aggregating
information from multiple scales, which has been proven beneficial for
non-transformer networks. Hence, we have developed LT-ViT, a transformer that
utilizes combined attention between image tokens and randomly initialized
auxiliary tokens that represent labels. Our experiments demonstrate that LT-ViT
(1) surpasses the state-of-the-art performance using pure ViTs on two publicly
available CXR datasets, (2) is generalizable to other pre-training methods and
therefore is agnostic to model initialization, and (3) enables model
interpretability without grad-cam and its variants.
- Abstract(参考訳): 視覚トランスフォーマー(vits)は医用画像診断に広く採用されており、胸部x線(cxr)の視覚言語訓練に向けた取り組みも行われている。
しかし,非トランスフォーマーネットワークにおいて有益であることが証明されている複数のスケールからの情報を集約することで,視力のみのトレーニングをViTで行うことが可能である。
そこで我々は,画像トークンとラベルを表すランダム初期化補助トークンを併用した変換器LT-ViTを開発した。
実験により, lt-vit (1) は2つの公開cxrデータセット上で, 純粋vits を用いた最先端性能を上回っており, (2) は他の事前学習法に一般化できるため, モデル初期化には依存せず, (3) grad-cam およびその変種を使わずにモデル解釈が可能となった。
関連論文リスト
- A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Training Vision-Language Transformers from Captions [80.00302205584335]
我々は,Masked Auto-Encoders上に構築されたVLC(Vision-Language from Captions)を新たに導入する。
ViLTと我々のモデルとの直接比較の結果、我々の手法は標準ベンチマークにおいてViLTよりも優れていることが判明した。
論文 参考訳(メタデータ) (2022-05-19T00:19:48Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Xformers: Efficient Attention for Image Classification [0.0]
我々は、2次注意を効率的な変換器に置き換えることで、より長いシーケンスデータを扱うためにViTアーキテクチャを変更した。
また,より少ない計算資源を消費する画像分類において,ViXはViTよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-07-05T19:24:23Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。