論文の概要: How Can We Tame the Long-Tail of Chest X-ray Datasets?
- arxiv url: http://arxiv.org/abs/2309.04293v1
- Date: Fri, 8 Sep 2023 12:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 13:32:22.486042
- Title: How Can We Tame the Long-Tail of Chest X-ray Datasets?
- Title(参考訳): 胸部X線データセットのロングテールをどう考慮すればいいのか?
- Authors: Arsh Verma
- Abstract要約: 胸部X線(英: Chest X-rays、CXR)は、多数の異常を推測するために用いられる医療画像のモダリティである。
非常に一般的に観測されており、CXRデータセットで十分に表現されているものはほとんどない。
現在のモデルでは、稀ではあるが高い意味を持つラベルの独立した差別的特徴を学習することは困難である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chest X-rays (CXRs) are a medical imaging modality that is used to infer a
large number of abnormalities. While it is hard to define an exhaustive list of
these abnormalities, which may co-occur on a chest X-ray, few of them are quite
commonly observed and are abundantly represented in CXR datasets used to train
deep learning models for automated inference. However, it is challenging for
current models to learn independent discriminatory features for labels that are
rare but may be of high significance. Prior works focus on the combination of
multi-label and long tail problems by introducing novel loss functions or some
mechanism of re-sampling or re-weighting the data. Instead, we propose that it
is possible to achieve significant performance gains merely by choosing an
initialization for a model that is closer to the domain of the target dataset.
This method can complement the techniques proposed in existing literature, and
can easily be scaled to new labels. Finally, we also examine the veracity of
synthetically generated data to augment the tail labels and analyse its
contribution to improving model performance.
- Abstract(参考訳): 胸部X線(英: Chest X-rays、CXR)は、多数の異常を推測するために用いられる医療画像のモダリティである。
胸部x線上に重複する可能性のあるこれらの異常の完全なリストを定義することは難しいが、ほとんど観測されておらず、自動推論のためにディープラーニングモデルを訓練するために使用されるcxrデータセットで豊富に表現されている。
しかし,現在のモデルでは,稀ではあるが重要かもしれないラベルに対して,独立した識別的特徴を学ぶことは困難である。
先行研究は、新しい損失関数やデータの再サンプリングや再重み付けのメカニズムを導入することで、複数ラベルと長い尾の問題の組み合わせに焦点を当てていた。
そこで本研究では,対象データセットの領域に近いモデルの初期化を選択するだけで,大幅な性能向上が可能であることを提案する。
この手法は既存の文献で提案されている手法を補完することができ、新しいラベルに簡単に拡張できる。
最後に,末尾ラベルを補うために合成データの有効性を検証し,そのモデル性能向上への寄与を解析した。
関連論文リスト
- Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - Automated Labeling of German Chest X-Ray Radiology Reports using Deep
Learning [50.591267188664666]
本稿では,ルールベースのドイツ語CheXpertモデルによってラベル付けされたレポートに基づいて,ディープラーニングに基づくCheXpertラベル予測モデルを提案する。
その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-06-09T16:08:35Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Covid-19 Detection from Chest X-ray and Patient Metadata using Graph
Convolutional Neural Networks [6.420262246029286]
本稿では,Covid-19肺炎のバイオマーカーを同定可能な新しいグラフ畳み込みニューラルネットワーク(GCN)を提案する。
提案手法は,データインスタンスとその特徴間の重要な関係知識をグラフ表現を用いて利用し,グラフデータ学習に畳み込みを適用する。
論文 参考訳(メタデータ) (2021-05-20T13:13:29Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Learning Invariant Feature Representation to Improve Generalization
across Chest X-ray Datasets [55.06983249986729]
我々は、トレーニングデータと同じデータセットでテストすると、ディープラーニングモデルが、異なるソースからデータセットでテストされると、パフォーマンスが低下し始めることを示す。
対戦型トレーニング戦略を用いることで、ネットワークはソース不変表現を学習せざるを得ないことを示す。
論文 参考訳(メタデータ) (2020-08-04T07:41:15Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。