論文の概要: Semantically Redundant Training Data Removal and Deep Model
Classification Performance: A Study with Chest X-rays
- arxiv url: http://arxiv.org/abs/2309.09773v1
- Date: Mon, 18 Sep 2023 13:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:09:59.563569
- Title: Semantically Redundant Training Data Removal and Deep Model
Classification Performance: A Study with Chest X-rays
- Title(参考訳): 意味的冗長なトレーニングデータ除去と深部モデル分類性能:胸部X線による検討
- Authors: Sivaramakrishnan Rajaraman, Ghada Zamzmi, Feng Yang, Zhaohui Liang,
Zhiyun Xue, and Sameer Antani
- Abstract要約: 本稿では,意味的に冗長なトレーニングデータを識別・除去するためのエントロピーに基づくサンプルスコアリング手法を提案する。
我々は、トレーニングデータの情報サブセットに基づいてトレーニングされたモデルが、トレーニングセット全体においてトレーニングされたモデルよりも大幅に優れる、公開可能なNIH胸部X線データセットを使用することを実証する。
- 参考スコア(独自算出の注目度): 5.454938535500864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning (DL) has demonstrated its innate capacity to independently
learn hierarchical features from complex and multi-dimensional data. A common
understanding is that its performance scales up with the amount of training
data. Another data attribute is the inherent variety. It follows, therefore,
that semantic redundancy, which is the presence of similar or repetitive
information, would tend to lower performance and limit generalizability to
unseen data. In medical imaging data, semantic redundancy can occur due to the
presence of multiple images that have highly similar presentations for the
disease of interest. Further, the common use of augmentation methods to
generate variety in DL training may be limiting performance when applied to
semantically redundant data. We propose an entropy-based sample scoring
approach to identify and remove semantically redundant training data. We
demonstrate using the publicly available NIH chest X-ray dataset that the model
trained on the resulting informative subset of training data significantly
outperforms the model trained on the full training set, during both internal
(recall: 0.7164 vs 0.6597, p<0.05) and external testing (recall: 0.3185 vs
0.2589, p<0.05). Our findings emphasize the importance of information-oriented
training sample selection as opposed to the conventional practice of using all
available training data.
- Abstract(参考訳): 深層学習(DL)は、複雑なデータや多次元データから階層的な特徴を独立して学習する能力を示した。
一般的な理解は、そのパフォーマンスがトレーニングデータの量に比例するということだ。
別のデータ属性は、固有のバラエティである。
したがって、類似または反復的な情報が存在する意味的冗長性は、性能を低下させ、見えないデータに対する一般化性を制限しがちである。
医用画像データでは、興味のある疾患に対する非常に類似した提示を有する複数の画像が存在するため、意味的冗長性が発生する可能性がある。
さらに,DLトレーニングにおける多種多様化のための拡張手法の共通利用は,意味的に冗長なデータに適用した場合の性能を制限している可能性がある。
意味的に冗長なトレーニングデータを識別・削除するためのエントロピーに基づくサンプルスコアリング手法を提案する。
トレーニングデータの有益サブセットに基づいてトレーニングされたモデルは、内部(リコール: 0.7164 vs 0.6597, p<0.05)および外部テスト(リコール: 0.3185 vs 0.2589, p<0.05)の両方において、トレーニングセットでトレーニングされたモデルを大幅に上回っている。
本研究は,すべての利用可能なトレーニングデータを使用する従来の手法とは対照的に,情報指向トレーニングサンプル選択の重要性を強調する。
関連論文リスト
- Probing Perfection: The Relentless Art of Meddling for Pulmonary Airway Segmentation from HRCT via a Human-AI Collaboration Based Active Learning Method [13.384578466263566]
肺気管分節症では, 注記データの不足が主訴である。
ディープラーニング(DL)メソッドは、'ブラックボックス'モデルの不透明さとパフォーマンス向上の必要性という課題に直面します。
多様なクエリ戦略とさまざまなDLモデルを組み合わせることで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-07-03T23:27:53Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's
Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文 参考訳(メタデータ) (2020-05-06T04:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。