論文の概要: Want To Reduce Labeling Cost? GPT-3 Can Help
- arxiv url: http://arxiv.org/abs/2108.13487v1
- Date: Mon, 30 Aug 2021 19:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 14:39:32.792128
- Title: Want To Reduce Labeling Cost? GPT-3 Can Help
- Title(参考訳): ラベルのコストを下げたい?
gpt-3は
- Authors: Shuohang Wang, Yang Liu, Yichong Xu, Chenguang Zhu, Michael Zeng
- Abstract要約: GPT-3は1750億のパラメータを持ち、数発の学習タスクで大幅に改善されている。
GPT-3のラベルは、人間のラベルよりも50%から96%安い。
本稿では,GPT-3の擬似ラベルと人間のラベルを結合する新たな枠組みを提案する。
- 参考スコア(独自算出の注目度): 27.059471349209986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data annotation is a time-consuming and labor-intensive process for many NLP
tasks. Although there exist various methods to produce pseudo data labels, they
are often task-specific and require a decent amount of labeled data to start
with. Recently, the immense language model GPT-3 with 175 billion parameters
has achieved tremendous improvement across many few-shot learning tasks. In
this paper, we explore ways to leverage GPT-3 as a low-cost data labeler to
train other models. We find that, to make the downstream model achieve the same
performance on a variety of NLU and NLG tasks, it costs 50% to 96% less to use
labels from GPT-3 than using labels from humans. Furthermore, we propose a
novel framework of combining pseudo labels from GPT-3 with human labels, which
leads to even better performance with limited labeling budget. These results
present a cost-effective data labeling methodology that is generalizable to
many practical applications.
- Abstract(参考訳): データアノテーションは多くのNLPタスクに対して時間と労力を要するプロセスである。
擬似データラベルを作成する方法はいくつか存在するが、タスク固有のものが多く、まずは十分な量のラベル付きデータを必要とする。
近年,1750億のパラメータを持つ巨大言語モデル GPT-3 が,数発の学習タスクで大幅に改善されている。
本稿では,GPT-3を低コストなデータラベラとして活用し,他のモデルを訓練する方法を検討する。
ダウンストリームモデルが様々なnluおよびnlgタスクで同等のパフォーマンスを達成するためには、ヒトのラベルを使用するよりも、gpt-3のラベルを使用する方が50%から96%少ないことが分かりました。
さらに,GPT-3の擬似ラベルと人間のラベルを結合する新たな枠組みを提案する。
これらの結果は、多くの実用的な応用に一般化可能なコスト効率のよいデータラベリング手法を示す。
関連論文リスト
- All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Deep Partial Multi-Label Learning with Graph Disambiguation [27.908565535292723]
grAph-disambIguatioN (PLAIN) を用いた新しいディープ部分多重ラベルモデルを提案する。
具体的には、ラベルの信頼性を回復するために、インスタンスレベルとラベルレベルの類似性を導入する。
各トレーニングエポックでは、ラベルがインスタンスとラベルグラフに伝播し、比較的正確な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2023-05-10T04:02:08Z) - Is GPT-3 a Good Data Annotator? [30.9559541574174]
GPT-3はOpenAIが開発した大規模言語モデルである。
本稿では,データアノテータとしてのGPT-3の性能を評価する。
論文 参考訳(メタデータ) (2022-12-20T17:28:41Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - PointMatch: A Consistency Training Framework for Weakly Supervised
Semantic Segmentation of 3D Point Clouds [117.77841399002666]
本稿では,データ自体から十分な情報を探索するために整合性正規化を適用することで,データとラベルの両面に立つ新しいフレームワークであるPointMatchを提案する。
提案したPointMatchは、ScanNet-v2データセットとS3DISデータセットの両方で、様々な弱い教師付きスキームの下で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-02-22T07:26:31Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - LEAN-LIFE: A Label-Efficient Annotation Framework Towards Learning from
Explanation [40.72453599376169]
LEAN-LIFEは、シーケンスラベリングと分類タスクのためのWebベースのラベル有効アノテーションフレームワークである。
我々のフレームワークは、この強化された監視技術を利用した最初のものであり、3つの重要なタスクに役立ちます。
論文 参考訳(メタデータ) (2020-04-16T07:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。