論文の概要: Improving the accuracy of automated labeling of specimen images datasets via a confidence-based process
- arxiv url: http://arxiv.org/abs/2411.10074v1
- Date: Fri, 15 Nov 2024 09:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:37:26.559363
- Title: Improving the accuracy of automated labeling of specimen images datasets via a confidence-based process
- Title(参考訳): 信頼度に基づく検体画像の自動ラベル付けの精度向上
- Authors: Quentin Bateux, Jonathan Koss, Patrick W. Sweeney, Erika Edwards, Nelson Rios, Aaron M. Dollar,
- Abstract要約: 本稿では,自動ラベリング精度を大幅に向上させる手法を提案する。
初期精度の86%を生んだナイーブモデルでは,性能が向上することが実証された。
このアプローチを様々な方法で検証した後、60,000以上のハーバリウム標本の大規模なデータセットに注釈を付けました。
- 参考スコア(独自算出の注目度): 9.0255922670433
- License:
- Abstract: The digitization of natural history collections over the past three decades has unlocked a treasure trove of specimen imagery and metadata. There is great interest in making this data more useful by further labeling it with additional trait data, and modern deep learning machine learning techniques utilizing convolutional neural nets (CNNs) and similar networks show particular promise to reduce the amount of required manual labeling by human experts, making the process much faster and less expensive. However, in most cases, the accuracy of these approaches is too low for reliable utilization of the automatic labeling, typically in the range of 80-85% accuracy. In this paper, we present and validate an approach that can greatly improve this accuracy, essentially by examining the confidence that the network has in the generated label as well as utilizing a user-defined threshold to reject labels that fall below a chosen level. We demonstrate that a naive model that produced 86% initial accuracy can achieve improved performance - over 95% accuracy (rejecting about 40% of the labels) or over 99% accuracy (rejecting about 65%) by selecting higher confidence thresholds. This gives flexibility to adapt existing models to the statistical requirements of various types of research and has the potential to move these automatic labeling approaches from being unusably inaccurate to being an invaluable new tool. After validating the approach in a number of ways, we annotate the reproductive state of a large dataset of over 600,000 herbarium specimens. The analysis of the results points at under-investigated correlations as well as general alignment with known trends. By sharing this new dataset alongside this work, we want to allow ecologists to gather insights for their own research questions, at their chosen point of accuracy/coverage trade-off.
- Abstract(参考訳): 過去30年にわたる自然史コレクションのデジタル化は、標本画像とメタデータの宝庫を解き放った。
また、畳み込みニューラルネット(CNN)と類似のネットワークを利用した現代のディープラーニング機械学習技術は、人間の専門家が必要とする手動ラベリングの量を減らし、プロセスの高速化とコストの低減を特別に約束している。
しかし、ほとんどの場合、これらの手法の精度は、通常80-85%の精度で自動ラベリングを利用するには低すぎる。
本稿では,ネットワークが生成ラベルに持つ信頼度と,選択レベル未満のラベルを拒否するユーザ定義しきい値を活用することによって,この精度を大幅に向上するアプローチを提案し,検証する。
その結果、95%以上の精度(ラベルの約40%を拒絶)または99%以上の精度(約65%を拒絶)を高い信頼閾値を選択することで、初期精度の86%を生み出すナイーブモデルにより、性能が向上できることが実証された。
これにより、既存のモデルを様々な研究の統計的要求に適応する柔軟性が得られ、これらの自動ラベリングアプローチが不正確から不正確な新しいツールに移行する可能性を秘めている。
このアプローチを様々な方法で検証した後、60,000以上のハーバリウム標本からなる大規模なデータセットの生殖状態に注釈を付ける。
結果の分析は、未解明の相関や、既知の傾向との一般的な整合性を示している。
この新しいデータセットをこの研究と合わせて共有することで、生態学者は自分たちが選んだ精度/カバレッジのトレードオフ点において、自身の研究課題に関する洞察を収集できるようになります。
関連論文リスト
- ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Efficient Testing of Deep Neural Networks via Decision Boundary Analysis [28.868479656437145]
我々は、新しいラベルのないデータに基づいてDNNの性能を推定できるAriesという新しい手法を提案する。
Aries による推定精度は 0.03% -- 2.60% (平均 0.61%) しか真の精度から外れていない。
論文 参考訳(メタデータ) (2022-07-22T08:39:10Z) - Going Beyond One-Hot Encoding in Classification: Can Human Uncertainty
Improve Model Performance? [14.610038284393166]
ラベルの不確実性は、分散ラベルを介してトレーニングプロセスに明示的に組み込まれていることを示す。
ラベルの不確実性の取り込みは、モデルが見つからないデータをより一般化し、モデルの性能を向上させるのに役立ちます。
既存のキャリブレーション法と同様に、分布ラベルはより良いキャリブレーションの確率をもたらし、それによってより確実で信頼できる予測が得られる。
論文 参考訳(メタデータ) (2022-05-30T17:19:11Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Accuracy Improvement for Fully Convolutional Networks via Selective
Augmentation with Applications to Electrocardiogram Data [0.0]
提案手法の精度は, 信頼度の低い試料に対する上限値付近で最適であり, 信頼度の高い試料を含むように, この閾値が上昇するにつれて低下した。
これは、フルコンボリューションネットワークによる心電図データ分類のための明確な利点を有するデータ増強のための低信頼サンプルを独占的に選択することを示唆している。
論文 参考訳(メタデータ) (2021-04-25T23:01:27Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。