論文の概要: Adding Seemingly Uninformative Labels Helps in Low Data Regimes
- arxiv url: http://arxiv.org/abs/2008.00807v2
- Date: Tue, 11 Aug 2020 10:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:40:24.887451
- Title: Adding Seemingly Uninformative Labels Helps in Low Data Regimes
- Title(参考訳): 低データレジームで不整形ラベルを追加する
- Authors: Christos Matsoukas, Albert Bou I Hernandez, Yue Liu, Karin Dembrower,
Gisele Miranda, Emir Konuk, Johan Fredin Haslum, Athanasios Zouzos, Peter
Lindholm, Fredrik Strand, Kevin Smith
- Abstract要約: マンモグラフィー画像における腫瘍のセグメンテーションという,専門的アノテーションを必要とする課題について考察する。
低データ設定では、専門家アノテーションと非専門家アノテーションの非形式的なラベルを補完し、タスクをマルチクラス問題にすることで、パフォーマンスを向上させることができることを示す。
- 参考スコア(独自算出の注目度): 6.953976287091344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evidence suggests that networks trained on large datasets generalize well not
solely because of the numerous training examples, but also class diversity
which encourages learning of enriched features. This raises the question of
whether this remains true when data is scarce - is there an advantage to
learning with additional labels in low-data regimes? In this work, we consider
a task that requires difficult-to-obtain expert annotations: tumor segmentation
in mammography images. We show that, in low-data settings, performance can be
improved by complementing the expert annotations with seemingly uninformative
labels from non-expert annotators, turning the task into a multi-class problem.
We reveal that these gains increase when less expert data is available, and
uncover several interesting properties through further studies. We demonstrate
our findings on CSAW-S, a new dataset that we introduce here, and confirm them
on two public datasets.
- Abstract(参考訳): エビデンスによれば、大規模なデータセットでトレーニングされたネットワークは、多くのトレーニング例があるだけでなく、リッチな特徴の学習を促進するクラス多様性によって、十分に一般化されている。
これは、データが不足しているときにこれが真実であるかどうかという疑問を提起する。
本研究では,マンモグラフィ画像における腫瘍の分節化という専門的注釈を必要とする課題について考察する。
低データ設定では、専門家アノテーションと非専門家アノテーションの非形式的なラベルを補完し、タスクをマルチクラス問題にすることでパフォーマンスを向上させることができる。
専門家データが少ないとこれらの増加が増加し、さらなる研究を通じていくつかの興味深い特性が明らかになる。
ここで紹介する新しいデータセットであるcsaw-sでの発見を実証し、2つの公開データセットでそれを確認します。
関連論文リスト
- A Self Supervised StyleGAN for Image Annotation and Classification with
Extremely Limited Labels [35.43549147657739]
画像アノテーションと分類のための自己教師型アプローチであるSS-StyleGANを提案する。
提案手法は,50と10の小さなラベル付きデータセットを用いて,強力な分類結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-26T09:46:50Z) - From Categories to Classifier: Name-Only Continual Learning by Exploring
the Web [125.75085825742092]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Hierarchical Self-Supervised Learning for Medical Image Segmentation
Based on Multi-Domain Data Aggregation [23.616336382437275]
医用画像分割のための階層型自己監督学習(HSSL)を提案する。
まず、いくつかの医学的課題からデータセットを収集し、自己教師付きでネットワークを事前訓練し、最後にラベル付きデータに微調整します。
スクラッチから学習するのに比べ、新しい手法は様々なタスクにおいてより良いパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2021-07-10T18:17:57Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Connecting Images through Time and Sources: Introducing Low-data,
Heterogeneous Instance Retrieval [3.6526118822907594]
バリエーションやセマンティックな内容のパネルによく反応する機能を選択するのは簡単ではないことを示す。
Alegoriaベンチマークの新しい拡張バージョンを導入し、詳細なアノテーションを使って記述子を比較します。
論文 参考訳(メタデータ) (2021-03-19T10:54:51Z) - Data-free Knowledge Distillation for Segmentation using Data-Enriching
GAN [0.0]
データフリー環境で知識蒸留を行うための新しいトレーニングフレームワークを提案する。
これまでのアプローチよりも6.93%改善しています。
論文 参考訳(メタデータ) (2020-11-02T08:16:42Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。