論文の概要: Methodology to Create Analysis-Naive Holdout Records as well as Train
and Test Records for Machine Learning Analyses in Healthcare
- arxiv url: http://arxiv.org/abs/2205.03987v1
- Date: Mon, 9 May 2022 00:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 01:20:32.280925
- Title: Methodology to Create Analysis-Naive Holdout Records as well as Train
and Test Records for Machine Learning Analyses in Healthcare
- Title(参考訳): 医療における機械学習分析のための分析・ナイーブなホールドアウト記録の作成方法とトレーニング・テスト記録の作成
- Authors: Michele Bennett, Mehdi Nekouei, Armand Prieditis Rajesh Mehta, Ewa
Kleczyk, Karin Hayes
- Abstract要約: ホルトアウトサンプルの目的は、全データセットから分析的かつランダムに選択される研究研究のためのデータを保存することである。
ホールドアウトを作成するための方法論は、ランダム化を考慮し、3方向分割を効率的に行うk倍のクロスバリデーションの修正である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is common for researchers to holdout data from a study pool to be used for
external validation as well as for future research, and the same desire is true
to those using machine learning modeling research. For this discussion, the
purpose of the holdout sample it is preserve data for research studies that
will be analysis-naive and randomly selected from the full dataset.
Analysis-naive are records that are not used for testing or training machine
learning (ML) models and records that do not participate in any aspect of the
current machine learning study. The methodology suggested for creating holdouts
is a modification of k-fold cross validation, which takes into account
randomization and efficiently allows a three-way split (holdout, test and
training) as part of the method without forcing. The paper also provides a
working example using set of automated functions in Python and some scenarios
for applicability in healthcare.
- Abstract(参考訳): 研究者は、外部の検証や将来の研究に使用する研究プールからデータを保持することが一般的であり、機械学習モデリング研究を使用する研究者も同様の欲求がある。
本研究の目的は,全データセットから分析的かつランダムに選択される研究研究のためのデータを保存することである。
Analysis-naiveは、機械学習モデル(ML)のテストやトレーニングに使用されていないレコードであり、現在の機械学習研究のいかなる側面にも関与していない。
ホールドアウトを作成するための方法論は、ランダム化を考慮したk-foldクロスバリデーションの修正であり、強制せずに3方向分割(ホールドアウト、テスト、トレーニング)を効果的に行うことができる。
論文はまた、Pythonにおける自動機能のセットと、医療への適用性に関するいくつかのシナリオを使った実例も提供している。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Online Performance Estimation with Unlabeled Data: A Bayesian Application of the Hui-Walter Paradigm [0.0]
我々は、伝統的に疫学や医学に応用されたHui-Walterパラダイムを機械学習の分野に適用する。
根拠のないシナリオでは、偽陽性率、偽陰性率、先行といった重要なパフォーマンス指標を推定する。
オンラインデータを扱うためのこのパラダイムを拡張し、動的データ環境の新しい可能性を広げます。
論文 参考訳(メタデータ) (2024-01-17T17:46:10Z) - Machine Unlearning for Causal Inference [0.6621714555125157]
モデルが与えられたユーザに関する情報(マシンアンラーニング)の学習/取得の一部を忘れることが重要である。
本稿では、因果推論のための機械学習の概念、特に確率スコアマッチングと治療効果推定について紹介する。
この研究で使用されるデータセットは、ジョブトレーニングプログラムの有効性を評価するために広く使用されているデータセットであるLalondeデータセットである。
論文 参考訳(メタデータ) (2023-08-24T17:27:01Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Example-Based Explainable AI and its Application for Remote Sensing
Image Classification [0.0]
入力データに類似したトレーニングデータセットのインスタンスの例を示す。
センチネル2衛星からのリモートセンシング画像データセットを用いて、この概念が実証された。
論文 参考訳(メタデータ) (2023-02-03T03:48:43Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Systematic Training and Testing for Machine Learning Using Combinatorial
Interaction Testing [0.0]
本稿では,機械学習モデルにおけるテストセットとトレーニングセットの選択と特徴付けのためのカバレッジの体系的利用について述べる。
この論文は、カバレッジに対する事前の批判に対処し、機械学習アプリケーションにおけるカバレッジメトリクスの使用を提唱する反論を提供する。
論文 参考訳(メタデータ) (2022-01-28T21:33:31Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。