論文の概要: Efficient human-in-loop deep learning model training with iterative
refinement and statistical result validation
- arxiv url: http://arxiv.org/abs/2304.00990v1
- Date: Mon, 3 Apr 2023 13:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:12:42.706193
- Title: Efficient human-in-loop deep learning model training with iterative
refinement and statistical result validation
- Title(参考訳): 反復的洗練と統計的結果検証によるループ内深層学習モデルの効率的な訓練
- Authors: Manuel Zahn, Douglas P. Perrin
- Abstract要約: 本稿では,超音波イメージング機械学習パイプラインのデータクリーニングに必要なセグメンテーションを作成する方法を紹介する。
本研究では、自動生成したトレーニングデータと人間の視覚的チェックを高速に活用し、時間とコストを低く保ちながら、モデルの精度を向上させる4段階の手法を提案する。
本手法は、静的PHIを含む背景データを除去し、心臓超音波セグメンテーションタスクで実演する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Annotation and labeling of images are some of the biggest challenges in
applying deep learning to medical data. Current processes are time and
cost-intensive and, therefore, a limiting factor for the wide adoption of the
technology. Additionally validating that measured performance improvements are
significant is important to select the best model. In this paper, we
demonstrate a method for creating segmentations, a necessary part of a data
cleaning for ultrasound imaging machine learning pipelines. We propose a
four-step method to leverage automatically generated training data and fast
human visual checks to improve model accuracy while keeping the time/effort and
cost low. We also showcase running experiments multiple times to allow the
usage of statistical analysis. Poor quality automated ground truth data and
quick visual inspections efficiently train an initial base model, which is
refined using a small set of more expensive human-generated ground truth data.
The method is demonstrated on a cardiac ultrasound segmentation task, removing
background data, including static PHI. Significance is shown by running the
experiments multiple times and using the student's t-test on the performance
distributions. The initial segmentation accuracy of a simple thresholding
algorithm of 92% was improved to 98%. The performance of models trained on
complicated algorithms can be matched or beaten by pre-training with the poorer
performing algorithms and a small quantity of high-quality data. The
introduction of statistic significance analysis for deep learning models helps
to validate the performance improvements measured. The method offers a
cost-effective and fast approach to achieving high-accuracy models while
minimizing the cost and effort of acquiring high-quality training data.
- Abstract(参考訳): 画像の注釈とラベル付けは、深層学習を医療データに適用する際の最大の課題である。
現在のプロセスは時間とコストがかかるため、テクノロジを広く採用する上での制限要因となっている。
さらに、最良のモデルを選択するためには、測定されたパフォーマンス改善が重要であることを検証することが重要です。
本稿では,超音波イメージング機械学習パイプラインのためのデータクリーニングの必要な部分であるセグメンテーションを作成する方法を示す。
本研究では,自動生成したトレーニングデータと高速人間の視覚チェックを活用し,時間/感情とコストを低く保ちながらモデルの精度を向上させる4段階の手法を提案する。
また,統計解析の活用のために,複数回実施実験を行った。
粗悪な品質の地上真実データと迅速な視覚検査は、より高価な人為的な地上真実データを用いて改良された初期ベースモデルを効率的に訓練する。
本手法は、静的PHIを含む背景データを除去し、心臓超音波セグメンテーションタスクで実演する。
実験を複数回行い、生徒のt-testをパフォーマンス分布で使用することで、意義が示される。
92%の単純なしきい値アルゴリズムの初期セグメンテーション精度を98%に改善した。
複雑なアルゴリズムでトレーニングされたモデルの性能は、より貧弱な実行アルゴリズムと少量の高品質なデータとの事前トレーニングによって一致または打ち負かすことができる。
ディープラーニングモデルに対する統計学的意義分析の導入は、測定された性能改善の検証に役立つ。
この方法は、高品質なトレーニングデータを取得するコストと労力を最小にしつつ、精度の高いモデルを達成するためのコスト効率と迅速なアプローチを提供する。
関連論文リスト
- Exploring Learning Complexity for Downstream Data Pruning [9.526877053855998]
本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。
大規模言語モデルの微調整を行うため,本手法は安定収束による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Iterative Loop Learning Combining Self-Training and Active Learning for
Domain Adaptive Semantic Segmentation [1.827510863075184]
この問題を緩和するために、自己学習とアクティブラーニングが提案されている。
本稿では,自己学習とアクティブラーニングを組み合わせた反復ループ学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:31:43Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Gradient-guided Loss Masking for Neural Machine Translation [27.609155878513334]
本稿では、トレーニングプロセス中にデータ利用を動的に最適化する戦略を検討する。
本アルゴリズムは,トレーニングデータとクリーンデータとの勾配アライメントを計算し,負のアライメントでデータをマスクアウトする。
3つのwmt言語ペアを実験した結果,本手法は強いベースラインよりも大きな改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-02-26T15:41:48Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。