論文の概要: Automating Weak Label Generation for Data Programming with Clinicians in the Loop
- arxiv url: http://arxiv.org/abs/2407.07982v1
- Date: Wed, 10 Jul 2024 18:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:48:59.176131
- Title: Automating Weak Label Generation for Data Programming with Clinicians in the Loop
- Title(参考訳): ループ内の臨床医によるデータプログラミングのための弱ラベル生成の自動化
- Authors: Jean Park, Sydney Pugh, Kaustubh Sridhar, Mengyu Liu, Navish Yarna, Ramneet Kaur, Souradeep Dutta, Elena Bernardis, Oleg Sokolsky, Insup Lee,
- Abstract要約: 本稿では,データセットのいくつかの代表的なサンプルのラベルについて,専門家に問い合わせるアルゴリズムを提案する。
専門家によって割り当てられたラベルは、完全なデータセットのラベル付けを誘導し、データプログラミングパイプラインで使用される弱いラベルを生成する。
医療時系列調査では,3,265サンプル中50~130サブセットのラベル付けが17~28%,F1の13~28%の精度向上を示した。
- 参考スコア(独自算出の注目度): 5.729255216041754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Deep Neural Networks (DNNs) are often data hungry and need high-quality labeled data in copious amounts for learning to converge. This is a challenge in the field of medicine since high quality labeled data is often scarce. Data programming has been the ray of hope in this regard, since it allows us to label unlabeled data using multiple weak labeling functions. Such functions are often supplied by a domain expert. Data-programming can combine multiple weak labeling functions and suggest labels better than simple majority voting over the different functions. However, it is not straightforward to express such weak labeling functions, especially in high-dimensional settings such as images and time-series data. What we propose in this paper is a way to bypass this issue, using distance functions. In high-dimensional spaces, it is easier to find meaningful distance metrics which can generalize across different labeling tasks. We propose an algorithm that queries an expert for labels of a few representative samples of the dataset. These samples are carefully chosen by the algorithm to capture the distribution of the dataset. The labels assigned by the expert on the representative subset induce a labeling on the full dataset, thereby generating weak labels to be used in the data programming pipeline. In our medical time series case study, labeling a subset of 50 to 130 out of 3,265 samples showed 17-28% improvement in accuracy and 13-28% improvement in F1 over the baseline using clinician-defined labeling functions. In our medical image case study, labeling a subset of about 50 to 120 images from 6,293 unlabeled medical images using our approach showed significant improvement over the baseline method, Snuba, with an increase of approximately 5-15% in accuracy and 12-19% in F1 score.
- Abstract(参考訳): 大きなディープニューラルネットワーク(DNN)は、しばしば飢えているデータであり、学習が収束するためには、協調的な量で高品質なラベル付きデータが必要である。
高品質なラベル付きデータは少ないことが多いため、医療分野での課題である。
データプログラミングは、複数の弱いラベル付け関数を使ってラベル付けされていないデータをラベル付けできるので、この点において希望の光である。
このような機能はドメインの専門家によって提供されることが多い。
データプログラミングは、複数の弱いラベル付け関数を組み合わせることができ、異なる関数に対する単純な多数決よりもラベルを推奨できる。
しかし、特に画像や時系列データのような高次元設定において、そのような弱いラベル付け関数を表現することは容易ではない。
本稿では,距離関数を用いてこの問題を回避する方法を提案する。
高次元空間では、異なるラベリングタスクをまたいで一般化できる有意義な距離メトリクスを見つけることがより容易である。
本稿では,データセットのいくつかの代表的なサンプルのラベルについて,専門家に問い合わせるアルゴリズムを提案する。
これらのサンプルは、データセットの分布をキャプチャするアルゴリズムによって慎重に選択される。
代表サブセットのエキスパートによって割り当てられたラベルは、完全なデータセットのラベルを誘導し、データプログラミングパイプラインで使用される弱いラベルを生成する。
3,265例中50~130例のラベリングでは,F1の精度が17~28%向上し,F1が13~28%改善した。
医用画像ケーススタディでは,6,293枚の未表示画像から50~120枚の画像にラベルを付けることで,約5~15%の精度,12~19%のF1スコアが向上した。
関連論文リスト
- You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Leveraging Fixed and Dynamic Pseudo-labels for Semi-supervised Medical Image Segmentation [7.9449756510822915]
半教師付き医用画像セグメンテーションは、注釈のないデータを利用する能力によって、関心が高まりつつある。
現在の最先端の手法は、主にコトレーニングフレームワーク内の擬似ラベルに依存している。
本稿では,同一の未注釈画像に対する複数の擬似ラベルを用いてラベルのないデータから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-05-12T11:30:01Z) - INSITE: labelling medical images using submodular functions and
semi-supervised data programming [19.88996560236578]
ディープモデルをトレーニングするための大量のラベル付きデータが、リソース制約された設定の実装ボトルネックを生み出します。
情報サブセット選択を適用し、多数の非競合データから、少数の代表画像や多種多様な画像を識別する。
新たにアノテートされた画像は、いくつかのデータプログラミング駆動ラベリング機能を開発するための例示として使用される。
論文 参考訳(メタデータ) (2024-02-11T12:02:00Z) - Adaptive Anchor Label Propagation for Transductive Few-Shot Learning [18.29463308334406]
ラベル付きデータによる画像の分類の問題に対処する例は少ない。
識別可能な損失関数を最小化することによりラベル付きデータの特徴埋め込みを適応する新しいアルゴリズムを提案する。
提案アルゴリズムは,1ショット設定と5ショット設定において,標準ラベル伝搬アルゴリズムを最大7%,2%向上させる。
論文 参考訳(メタデータ) (2023-10-30T20:29:31Z) - ScarceNet: Animal Pose Estimation with Scarce Annotations [74.48263583706712]
ScarceNetは、ラベルのない画像のための人工ラベルを生成するための擬似ラベルベースのアプローチである。
我々は、既存の半教師付きアプローチを大きなマージンで上回る、挑戦的なAP-10Kデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-03-27T09:15:53Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning [46.414510522978425]
教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
論文 参考訳(メタデータ) (2021-10-06T18:25:50Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文 参考訳(メタデータ) (2020-09-27T22:13:20Z) - 3D medical image segmentation with labeled and unlabeled data using
autoencoders at the example of liver segmentation in CT images [58.720142291102135]
本研究では、畳み込みニューラルネットワークによるセグメンテーションを改善するために、オートエンコーダ抽出機能の可能性を検討する。
コンボリューション・オートエンコーダを用いてラベルのないデータから特徴を抽出し,CT画像における3次元肝セグメンテーションの目標タスクを実行するために,マルチスケールの完全畳み込みCNNを用いた。
論文 参考訳(メタデータ) (2020-03-17T20:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。