論文の概要: Sample Size in Natural Language Processing within Healthcare Research
- arxiv url: http://arxiv.org/abs/2309.02237v1
- Date: Tue, 5 Sep 2023 13:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 14:35:45.384529
- Title: Sample Size in Natural Language Processing within Healthcare Research
- Title(参考訳): 医療研究における自然言語処理のサンプルサイズ
- Authors: Jaya Chaturvedi, Diana Shamsutdinova, Felix Zimmer, Sumithra
Velupillai, Daniel Stahl, Robert Stewart, Angus Roberts
- Abstract要約: 事前収集されたデータの十分なコーパスの欠如は、新しい研究のためにサンプルサイズを決定する際の制限要因となる可能性がある。
本稿では、医療領域におけるテキスト分類タスクのサンプルサイズを推奨することで、この問題に対処しようとする。
- 参考スコア(独自算出の注目度): 0.14865681381012494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample size calculation is an essential step in most data-based disciplines.
Large enough samples ensure representativeness of the population and determine
the precision of estimates. This is true for most quantitative studies,
including those that employ machine learning methods, such as natural language
processing, where free-text is used to generate predictions and classify
instances of text. Within the healthcare domain, the lack of sufficient corpora
of previously collected data can be a limiting factor when determining sample
sizes for new studies. This paper tries to address the issue by making
recommendations on sample sizes for text classification tasks in the healthcare
domain.
Models trained on the MIMIC-III database of critical care records from Beth
Israel Deaconess Medical Center were used to classify documents as having or
not having Unspecified Essential Hypertension, the most common diagnosis code
in the database. Simulations were performed using various classifiers on
different sample sizes and class proportions. This was repeated for a
comparatively less common diagnosis code within the database of diabetes
mellitus without mention of complication.
Smaller sample sizes resulted in better results when using a K-nearest
neighbours classifier, whereas larger sample sizes provided better results with
support vector machines and BERT models. Overall, a sample size larger than
1000 was sufficient to provide decent performance metrics.
The simulations conducted within this study provide guidelines that can be
used as recommendations for selecting appropriate sample sizes and class
proportions, and for predicting expected performance, when building classifiers
for textual healthcare data. The methodology used here can be modified for
sample size estimates calculations with other datasets.
- Abstract(参考訳): サンプルサイズ計算は、ほとんどのデータベースの分野において重要なステップである。
十分なサンプルは、人口の代表性を確保し、見積もりの精度を決定する。
これは、自然言語処理などの機械学習手法を用いたものを含む、ほとんどの定量的研究において当てはまる。
医療領域内では、事前に収集されたデータの十分なコーパスの欠如が、新しい研究のためにサンプルサイズを決定する際の制限要因となり得る。
本稿では,医療領域におけるテキスト分類タスクのサンプルサイズを推奨することでこの問題に対処しようとする。
MIMIC-IIIデータベースでトレーニングされたBeth Israel Deaconess Medical Centerからの重要なケア記録のモデルは、データベース内で最も一般的な診断コードである未特定本態性高血圧を有するか否かを文書に分類するために使用された。
サンプルサイズとクラス比率の異なる様々な分類器を用いてシミュレーションを行った。
合併症に言及せず,糖尿病データベース内の診断基準が比較的少ないため,本症例は繰り返す。
より小さいサンプルサイズはK-アネレス近傍の分類器を使用する場合よりもよい結果を得たが、大きいサンプルサイズはサポートベクターマシンとBERTモデルでより良い結果を得た。
全体としては、1000以上のサンプルサイズで十分なパフォーマンス指標を提供できた。
本研究で実施したシミュレーションは、適切なサンプルサイズとクラス比率を選択し、テキスト医療データの分類器を構築する際に期待される性能を予測するためのガイドラインを提供する。
ここで用いられる方法論は、サンプルサイズ推定計算のために他のデータセットで修正することができる。
関連論文リスト
- Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。
本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。
その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Improving Extraction of Clinical Event Contextual Properties from Electronic Health Records: A Comparative Study [2.0884301753594334]
本研究は,医学テキスト分類のための様々な自然言語モデルの比較分析を行う。
BERTはBi-LSTMモデルを最大28%、ベースラインのBERTモデルを最大16%上回り、マイノリティクラスをリコールする。
論文 参考訳(メタデータ) (2024-08-30T10:28:49Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Using text embedding models and vector databases as text classifiers
with the example of medical data [0.0]
本稿では, 医学分野における例と応用例を用いて, テキストを符号化し, 分類する手段として, ベクトルデータベースと埋め込みモデルの利用について検討する。
これらのツールの堅牢性は、提示されるデータの空間性に大きく依存していることを示し、ベクトルデータベース自体の低量のデータであっても、ベクトルデータベースはデータを分類するのに良い仕事をする。
論文 参考訳(メタデータ) (2024-02-07T22:15:15Z) - Tutorial: a priori estimation of sample size, effect size, and
statistical power for cluster analysis, latent class analysis, and
multivariate mixture models [0.0]
このチュートリアルは、サブグループを特定する分析のためのサンプルサイズと効果サイズを決定するロードマップを提供する。
研究者が選択した領域における効果サイズに対する期待を形式化するための手順を紹介します。
次に、サブグループ分析における最小サンプルサイズを確立する方法について概説する。
論文 参考訳(メタデータ) (2023-09-02T08:48:00Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - A Large Scale Benchmark for Individual Treatment Effect Prediction and
Uplift Modeling [7.1736440498963105]
個別治療効果(ITE)予測は、粒度レベルでの行動の因果的影響を説明し、推定することを目的としている。
このトピックの研究を促進するために、いくつかのランダム化制御試験から収集された139万のサンプルの公開コレクションをリリースする。
論文 参考訳(メタデータ) (2021-11-19T09:07:14Z) - A Real Use Case of Semi-Supervised Learning for Mammogram Classification
in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。
多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。
ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文 参考訳(メタデータ) (2021-07-24T22:26:50Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。