論文の概要: GazeLT: Visual attention-guided long-tailed disease classification in chest radiographs
- arxiv url: http://arxiv.org/abs/2508.09478v1
- Date: Wed, 13 Aug 2025 04:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.756099
- Title: GazeLT: Visual attention-guided long-tailed disease classification in chest radiographs
- Title(参考訳): GazeLT:胸部X線写真における視覚的注意誘導ロングテール病分類
- Authors: Moinak Bhattacharya, Gagandeep Singh, Shubham Jain, Prateek Prasanna,
- Abstract要約: 本稿では,長期的疾患分類のための人間の視覚的注意統合分解アプローチであるGazeLTについて述べる。
放射線科医の視線は、細粒度と粗いレベルの疾患関連情報の両方を捉えた異なるパターンを持つ。
GazeLTは、視覚検索プロセスの時間的側面を統合と分解機構を通じて利用し、長い尾の病気分類を改善する。
- 参考スコア(独自算出の注目度): 11.865553250973589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present GazeLT, a human visual attention integration-disintegration approach for long-tailed disease classification. A radiologist's eye gaze has distinct patterns that capture both fine-grained and coarser level disease related information. While interpreting an image, a radiologist's attention varies throughout the duration; it is critical to incorporate this into a deep learning framework to improve automated image interpretation. Another important aspect of visual attention is that apart from looking at major/obvious disease patterns, experts also look at minor/incidental findings (few of these constituting long-tailed classes) during the course of image interpretation. GazeLT harnesses the temporal aspect of the visual search process, via an integration and disintegration mechanism, to improve long-tailed disease classification. We show the efficacy of GazeLT on two publicly available datasets for long-tailed disease classification, namely the NIH-CXR-LT (n=89237) and the MIMIC-CXR-LT (n=111898) datasets. GazeLT outperforms the best long-tailed loss by 4.1% and the visual attention-based baseline by 21.7% in average accuracy metrics for these datasets. Our code is available at https://github.com/lordmoinak1/gazelt.
- Abstract(参考訳): 本稿では,長期的疾患分類のための人間の視覚的注意統合統合分解アプローチであるGazeLTについて述べる。
放射線科医の視線は、細粒度と粗いレベルの疾患関連情報の両方を捉えた異なるパターンを持つ。
画像の解釈において、放射線技師の注意は一定期間にわたって変化し、これをディープラーニングフレームワークに組み込んで自動画像解釈を改善することが重要である。
視覚的注意のもう1つの重要な側面は、メジャー/オブザーズ病のパターンを観察することとは別に、画像解釈の過程で、マイナー/インシデント所見(これらのうち2つは長い尾を持つクラスを構成する)も観察することである。
GazeLTは、視覚検索プロセスの時間的側面を統合と分解機構を通じて利用し、長い尾の病気分類を改善する。
本稿では, NIH-CXR-LT (n=89237) とMIMIC-CXR-LT (n=111898) の2つの病気分類データセットに対するGazeLTの有効性を示す。
GazeLTは、最も長い尾の損失を4.1%、視覚的注意に基づくベースラインを21.7%上回っている。
私たちのコードはhttps://github.com/lordmoinak1/gazelt.comから入手可能です。
関連論文リスト
- Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration [21.260659596426184]
画像と報告の両方から病理観察の一貫性を最大化するために,新しい病理レベルの相互アライメント(PCMA)手法を提案する。
PCMAモジュールは外部の疾患アノテーションとは独立して動作し,本手法の汎用性と堅牢性を高める。
実験により,提案するフレームワークは,複数の下流タスクにおいて,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-12T11:01:57Z) - Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [50.483761005446]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文 参考訳(メタデータ) (2025-05-21T05:16:45Z) - Unsupervised Machine Learning for Osteoporosis Diagnosis Using Singh Index Clustering on Hip Radiographs [0.0]
Singh Index (SI) は単純で半定量的な骨粗しょう症の診断方法である。
本研究は, 機械学習アルゴリズムを用いて, ラジオグラフからのSI識別を自動化することを目的とする。
論文 参考訳(メタデータ) (2024-11-22T08:44:43Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIP)は,マルチモーダルな大規模事前訓練によるゼロショット分類を可能にすることで,有望なソリューションを提供する。
CLIPは、グローバルな画像コンテンツを効果的にキャプチャするが、ラジオロジーは、解釈可能性と診断精度の両方を高めるために、特定の病理領域により局所的な焦点をあてる必要がある。
視覚的手がかりをゼロショット分類に組み込む可能性を探り、矢印、バウンディングボックス、円などの視覚的マーカーを直接放射線画像に埋め込んでモデル注意を誘導する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - CO2Wounds-V2: Extended Chronic Wounds Dataset From Leprosy Patients [57.31670527557228]
本稿では,レプロシー患者のRGB創傷画像の拡張コレクションであるCO2Wounds-V2データセットについて紹介する。
医療分野における画像処理アルゴリズムの開発とテストを強化することを目的としている。
論文 参考訳(メタデータ) (2024-08-20T13:21:57Z) - JointViT: Modeling Oxygen Saturation Levels with Joint Supervision on Long-Tailed OCTA [5.935281996910959]
本稿では,ビジョントランスフォーマーアーキテクチャに基づく新しいモデルであるJointViTを提案する。
本稿では,データ前処理時のバランシング向上手法を導入し,モデルの性能向上を図る。
提案手法は他の最先端手法よりも優れ、全体的な精度は最大12.28%向上した。
論文 参考訳(メタデータ) (2024-04-17T16:16:12Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - A Benchmark for Studying Diabetic Retinopathy: Segmentation, Grading,
and Transferability [76.64661091980531]
糖尿病患者は糖尿病網膜症(DR)を発症するリスクがある
コンピュータ支援型DR診断は、DRの早期検出と重度評価のための有望なツールである。
このデータセットは、ピクセルレベルのDR関連病変アノテーションを持つ1,842枚の画像と、6人の眼科医によって評価された画像レベルのラベルを持つ1,000枚の画像を有する。
論文 参考訳(メタデータ) (2020-08-22T07:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。