論文の概要: How much data do I need? A case study on medical data
- arxiv url: http://arxiv.org/abs/2311.15331v1
- Date: Sun, 26 Nov 2023 15:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:06:52.532421
- Title: How much data do I need? A case study on medical data
- Title(参考訳): どれくらいのデータが必要ですか?
医療データに関する事例研究
- Authors: Ayse Betul Cengiz and A. Stephen McGough
- Abstract要約: 私たちは2つの一般的なアドレジを見る。
i) より多くのデータがより良い結果を与えます
二 移動学習は 十分なデータがないときに 役に立ちます。
6つの医学データセットと6つの一般データセットを評価した。
- 参考スコア(独自算出の注目度): 0.7070726553564699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The collection of data to train a Deep Learning network is costly in terms of
effort and resources. In many cases, especially in a medical context, it may
have detrimental impacts. Such as requiring invasive medical procedures or
processes which could in themselves cause medical harm. However, Deep Learning
is seen as a data hungry method. Here, we look at two commonly held adages i)
more data gives better results and ii) transfer learning will aid you when you
don't have enough data. These are widely assumed to be true and used as
evidence for choosing how to solve a problem when Deep Learning is involved. We
evaluate six medical datasets and six general datasets. Training a ResNet18
network on varying subsets of these datasets to evaluate `more data gives
better results'. We take eleven of these datasets as the sources for Transfer
Learning on subsets of the twelfth dataset -- Chest -- in order to determine
whether Transfer Learning is universally beneficial. We go further to see
whether multi-stage Transfer Learning provides a consistent benefit. Our
analysis shows that the real situation is more complex than these simple adages
-- more data could lead to a case of diminishing returns and an incorrect
choice of dataset for transfer learning can lead to worse performance, with
datasets which we would consider highly similar to the Chest dataset giving
worse results than datasets which are more dissimilar. Multi-stage transfer
learning likewise reveals complex relationships between datasets.
- Abstract(参考訳): ディープラーニングネットワークをトレーニングするデータの収集には、労力とリソースの面でコストがかかる。
多くの場合、特に医学的文脈では、有害な影響がある可能性がある。
侵襲的な医療処置や、それ自体が医療被害を引き起こすようなプロセスが必要となる。
しかし、Deep Learningはデータ不足の方法だと見なされている。
ここでは2つの一般的なアナージを見てみましょう。
i) より多くのデータがより良い結果をもたらすこと
二 十分なデータがない場合、転送学習は役に立ちます。
これらは広く真であると仮定され、深層学習に関わる問題を解決する方法を選択する証拠として使用される。
6つの医学データセットと6つの一般データセットを評価した。
これらのデータセットのさまざまなサブセット上でResNet18ネットワークをトレーニングして、“より多くのデータがより良い結果をもたらす”と評価する。
転送学習が普遍的に有益かどうかを判断するために、これらのデータセットのうち11つを、第12データセットのサブセットである胸部で転送学習のソースとしています。
マルチステージトランスファーラーニングが一貫したメリットをもたらすかどうか、さらに調べていきます。
分析の結果、実際の状況はこれらの単純なアサージよりも複雑であることが分かりました -- より多くのデータがリターンの減少につながる可能性があり、転送学習のためのデータセットの誤った選択は、パフォーマンスを悪化させる可能性があるのです。
多段階転送学習も同様にデータセット間の複雑な関係を明らかにする。
関連論文リスト
- When More is Less: Incorporating Additional Datasets Can Hurt
Performance By Introducing Spurious Correlations [16.782625445546273]
その結果、2つの病院のデータに基づいてトレーニングされたモデルでは、1つの病院のデータでトレーニングされたモデルよりも、両方の病院でグループ精度が劣っていることがわかった。
この現象は, 病院固有のイメージアーティファクトが原因で, 疾患と病院との間に生じる急激な相関関係から生じると説明される。
論文 参考訳(メタデータ) (2023-08-08T17:58:45Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - A Data-Based Perspective on Transfer Learning [76.30206800557411]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。
我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文 参考訳(メタデータ) (2022-07-12T17:58:28Z) - When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning
Framework in Classification of Medical Images on Limited Data: A COVID-19
Case Study [77.34726150561087]
新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。
CNNは医療画像の解析に広く利用され、検証されている。
論文 参考訳(メタデータ) (2022-03-24T02:09:41Z) - Neural Network Training with Highly Incomplete Datasets [1.5658704610960568]
GapNetは、高度に不完全なデータセットを使用することができる、別のディープラーニングトレーニングアプローチである。
以上の結果から,GapNetはアルツハイマー病の病態とコビッド19による入院リスクのある患者の同定を改善することが示唆された。
論文 参考訳(メタデータ) (2021-07-01T13:21:45Z) - Enhancing ensemble learning and transfer learning in multimodal data
analysis by adaptive dimensionality reduction [10.646114896709717]
マルチモーダルデータ分析では、すべての観測が同じレベルの信頼性や情報品質を示すわけではない。
この問題を克服するために,次元削減のための適応的アプローチを提案する。
多様な研究分野で得られたマルチモーダルデータセットのアプローチをテストします。
論文 参考訳(メタデータ) (2021-05-08T11:53:12Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - Adversarial Multi-Source Transfer Learning in Healthcare: Application to
Glucose Prediction for Diabetic People [4.17510581764131]
本稿では,複数のソース間で類似した特徴表現の学習を可能にする多元逆変換学習フレームワークを提案する。
完全畳み込みニューラルネットワークを用いた糖尿病患者の血糖予測にこの考え方を適用した。
特に、異なるデータセットのデータを使用したり、あるいはデータセット内の状況にデータが少ない場合に輝く。
論文 参考訳(メタデータ) (2020-06-29T11:17:50Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。