論文の概要: CLARiTy: A Vision Transformer for Multi-Label Classification and Weakly-Supervised Localization of Chest X-ray Pathologies
- arxiv url: http://arxiv.org/abs/2512.16700v1
- Date: Thu, 18 Dec 2025 16:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.143511
- Title: CLARiTy: A Vision Transformer for Multi-Label Classification and Weakly-Supervised Localization of Chest X-ray Pathologies
- Title(参考訳): CLARiTy:胸部X線診断のマルチラベル分類と弱スーパービジョン化のための視覚変換器
- Authors: John M. Statheros, Hairong Wang, Richard Klein,
- Abstract要約: CLARiTyは、胸椎病変の多ラベル分類と弱教師付き局所化のための視覚変換器に基づくモデルである。
NIH ChestX-ray14データセットの画像レベルラベルに基づいてトレーニングされている。
14の病理にまたがる競争的分類性能と8の病理上での最先端の教師付きローカライゼーション性能を実現している。
- 参考スコア(独自算出の注目度): 5.833805519002777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interpretation of chest X-rays (CXRs) poses significant challenges, particularly in achieving accurate multi-label pathology classification and spatial localization. These tasks demand different levels of annotation granularity but are frequently constrained by the scarcity of region-level (dense) annotations. We introduce CLARiTy (Class Localizing and Attention Refining Image Transformer), a vision transformer-based model for joint multi-label classification and weakly-supervised localization of thoracic pathologies. CLARiTy employs multiple class-specific tokens to generate discriminative attention maps, and a SegmentCAM module for foreground segmentation and background suppression using explicit anatomical priors. Trained on image-level labels from the NIH ChestX-ray14 dataset, it leverages distillation from a ConvNeXtV2 teacher for efficiency. Evaluated on the official NIH split, the CLARiTy-S-16-512 (a configuration of CLARiTy), achieves competitive classification performance across 14 pathologies, and state-of-the-art weakly-supervised localization performance on 8 pathologies, outperforming prior methods by 50.7%. In particular, pronounced gains occur for small pathologies like nodules and masses. The lower-resolution variant of CLARiTy, CLARiTy-S-16-224, offers high efficiency while decisively surpassing baselines, thereby having the potential for use in low-resource settings. An ablation study confirms contributions of SegmentCAM, DINO pretraining, orthogonal class token loss, and attention pooling. CLARiTy advances beyond CNN-ViT hybrids by harnessing ViT self-attention for global context and class-specific localization, refined through convolutional background suppression for precise, noise-reduced heatmaps.
- Abstract(参考訳): 胸部X線(CXR)の解釈は、特に正確なマルチラベル病理分類と空間的局在を達成する上で、重要な課題となっている。
これらのタスクは、異なるレベルのアノテーションの粒度を必要とするが、リージョンレベルのアノテーションの不足によってしばしば制約される。
CLARiTy(Class Localizing and Attention Refining Image Transformer)は,胸部疾患の多ラベル分類と弱教師付き局所化のための視覚変換器モデルである。
CLARiTyは、識別的アテンションマップを生成するために複数のクラス固有のトークンと、明示的な解剖学的先行値を用いた前景セグメンテーションと背景抑圧のためのSegmentCAMモジュールを使用している。
NIH ChestX-ray14データセットの画像レベルのラベルに基づいてトレーニングされ、ConvNeXtV2教師からの蒸留を効率よく活用する。
CLARiTy-S-16-512(CLARiTyの構成)は、公式のNIHスプリットに基づいて評価され、14の病理にまたがる競争的な分類性能と8の病理上の最先端の弱い教師付きローカライゼーション性能を達成し、先行手法を50.7%上回った。
特に、結節や塊のような小さな病理では顕著な利得が生じる。
CLARiTyの低解像度版であるCLARiTy-S-16-224は、ベースラインを決定的に超過しながら高い効率を提供する。
アブレーション研究では、SegmentCAM、DINOプレトレーニング、直交型トークン損失、アテンションプールの寄与が確認されている。
CLARiTyは、CNN-ViTハイブリッドを超越し、ViT自己アテンションをグローバルなコンテキストとクラス固有のローカライゼーションに利用し、正確なノイズ低減ヒートマップのための畳み込み背景抑圧によって洗練する。
関連論文リスト
- Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIP)は,マルチモーダルな大規模事前訓練によるゼロショット分類を可能にすることで,有望なソリューションを提供する。
CLIPは、グローバルな画像コンテンツを効果的にキャプチャするが、ラジオロジーは、解釈可能性と診断精度の両方を高めるために、特定の病理領域により局所的な焦点をあてる必要がある。
視覚的手がかりをゼロショット分類に組み込む可能性を探り、矢印、バウンディングボックス、円などの視覚的マーカーを直接放射線画像に埋め込んでモデル注意を誘導する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - Mixed-UNet: Refined Class Activation Mapping for Weakly-Supervised
Semantic Segmentation with Multi-scale Inference [28.409679398886304]
我々は、デコードフェーズに2つの並列分岐を持つMixed-UNetという新しいモデルを開発する。
地域病院や公開データセットから収集したデータセットに対して,いくつかの一般的なディープラーニングに基づくセグメンテーションアプローチに対して,設計したMixed-UNetを評価した。
論文 参考訳(メタデータ) (2022-05-06T08:37:02Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Feature based Sequential Classifier with Attention Mechanism [0.7123982871971924]
病理組織学的スライスを用いた骨盤内上皮内腫瘍評価は, 骨盤間変動が考慮される。
本稿では,高分解能上皮像を階層的に解析するネットワークパイプラインであるDeepCINを提案する。
実験により、DeepCINは病理学レベルのCIN分類精度を達成することが示された。
論文 参考訳(メタデータ) (2020-07-22T12:54:30Z) - Weakly-Supervised Segmentation for Disease Localization in Chest X-Ray
Images [0.0]
医用胸部X線画像のセマンティックセグメンテーションに対する新しいアプローチを提案する。
本手法は肺と胸壁の間の異常な空気量を検出するための胸部X線検査に適用可能である。
論文 参考訳(メタデータ) (2020-07-01T20:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。