論文の概要: Efficient human-in-loop deep learning model training with iterative
refinement and statistical result validation
- arxiv url: http://arxiv.org/abs/2304.00990v1
- Date: Mon, 3 Apr 2023 13:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:12:42.706193
- Title: Efficient human-in-loop deep learning model training with iterative
refinement and statistical result validation
- Title(参考訳): 反復的洗練と統計的結果検証によるループ内深層学習モデルの効率的な訓練
- Authors: Manuel Zahn, Douglas P. Perrin
- Abstract要約: 本稿では,超音波イメージング機械学習パイプラインのデータクリーニングに必要なセグメンテーションを作成する方法を紹介する。
本研究では、自動生成したトレーニングデータと人間の視覚的チェックを高速に活用し、時間とコストを低く保ちながら、モデルの精度を向上させる4段階の手法を提案する。
本手法は、静的PHIを含む背景データを除去し、心臓超音波セグメンテーションタスクで実演する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Annotation and labeling of images are some of the biggest challenges in
applying deep learning to medical data. Current processes are time and
cost-intensive and, therefore, a limiting factor for the wide adoption of the
technology. Additionally validating that measured performance improvements are
significant is important to select the best model. In this paper, we
demonstrate a method for creating segmentations, a necessary part of a data
cleaning for ultrasound imaging machine learning pipelines. We propose a
four-step method to leverage automatically generated training data and fast
human visual checks to improve model accuracy while keeping the time/effort and
cost low. We also showcase running experiments multiple times to allow the
usage of statistical analysis. Poor quality automated ground truth data and
quick visual inspections efficiently train an initial base model, which is
refined using a small set of more expensive human-generated ground truth data.
The method is demonstrated on a cardiac ultrasound segmentation task, removing
background data, including static PHI. Significance is shown by running the
experiments multiple times and using the student's t-test on the performance
distributions. The initial segmentation accuracy of a simple thresholding
algorithm of 92% was improved to 98%. The performance of models trained on
complicated algorithms can be matched or beaten by pre-training with the poorer
performing algorithms and a small quantity of high-quality data. The
introduction of statistic significance analysis for deep learning models helps
to validate the performance improvements measured. The method offers a
cost-effective and fast approach to achieving high-accuracy models while
minimizing the cost and effort of acquiring high-quality training data.
- Abstract(参考訳): 画像の注釈とラベル付けは、深層学習を医療データに適用する際の最大の課題である。
現在のプロセスは時間とコストがかかるため、テクノロジを広く採用する上での制限要因となっている。
さらに、最良のモデルを選択するためには、測定されたパフォーマンス改善が重要であることを検証することが重要です。
本稿では,超音波イメージング機械学習パイプラインのためのデータクリーニングの必要な部分であるセグメンテーションを作成する方法を示す。
本研究では,自動生成したトレーニングデータと高速人間の視覚チェックを活用し,時間/感情とコストを低く保ちながらモデルの精度を向上させる4段階の手法を提案する。
また,統計解析の活用のために,複数回実施実験を行った。
粗悪な品質の地上真実データと迅速な視覚検査は、より高価な人為的な地上真実データを用いて改良された初期ベースモデルを効率的に訓練する。
本手法は、静的PHIを含む背景データを除去し、心臓超音波セグメンテーションタスクで実演する。
実験を複数回行い、生徒のt-testをパフォーマンス分布で使用することで、意義が示される。
92%の単純なしきい値アルゴリズムの初期セグメンテーション精度を98%に改善した。
複雑なアルゴリズムでトレーニングされたモデルの性能は、より貧弱な実行アルゴリズムと少量の高品質なデータとの事前トレーニングによって一致または打ち負かすことができる。
ディープラーニングモデルに対する統計学的意義分析の導入は、測定された性能改善の検証に役立つ。
この方法は、高品質なトレーニングデータを取得するコストと労力を最小にしつつ、精度の高いモデルを達成するためのコスト効率と迅速なアプローチを提供する。
関連論文リスト
- SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。
このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。
経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文 参考訳(メタデータ) (2024-07-09T08:26:39Z) - CE-SSL: Computation-Efficient Semi-Supervised Learning for ECG-based Cardiovascular Diseases Detection [16.34314710823127]
本稿では,ECG を用いた計算効率の高い CVD 検出のための計算効率の高い半教師付き学習パラダイム (CE-SSL) を提案する。
これは、限られた監督と高い計算効率で、下流データセットに事前訓練されたモデルの堅牢な適応を可能にする。
CE-SSLは、マルチラベルCVDの検出における最先端メソッドよりも優れているだけでなく、GPUフットプリント、トレーニング時間、パラメータストレージスペースも少ない。
論文 参考訳(メタデータ) (2024-06-20T14:45:13Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Data Efficient Contrastive Learning in Histopathology using Active Sampling [0.0]
ディープラーニングアルゴリズムは、デジタル病理学において堅牢な定量的分析を提供することができる。
これらのアルゴリズムは大量の注釈付きトレーニングデータを必要とする。
アドホックなプリテキストタスクを用いて特徴を学習するための自己教師付き手法が提案されている。
そこで本研究では,小規模なプロキシネットワークを用いたトレーニングセットから情報的メンバを積極的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2023-03-28T18:51:22Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。