論文の概要: ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
- arxiv url: http://arxiv.org/abs/2303.15056v2
- Date: Wed, 19 Jul 2023 14:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 17:24:06.969488
- Title: ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
- Title(参考訳): chatgptはテキスト注釈タスクでクラウドワーカーを上回る
- Authors: Fabrizio Gilardi, Meysam Alizadeh, Ma\"el Kubli
- Abstract要約: また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。
ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many NLP applications require manual data annotations for a variety of tasks,
notably to train classifiers or evaluate the performance of unsupervised
models. Depending on the size and degree of complexity, the tasks may be
conducted by crowd-workers on platforms such as MTurk as well as trained
annotators, such as research assistants. Using a sample of 2,382 tweets, we
demonstrate that ChatGPT outperforms crowd-workers for several annotation
tasks, including relevance, stance, topics, and frames detection. Specifically,
the zero-shot accuracy of ChatGPT exceeds that of crowd-workers for four out of
five tasks, while ChatGPT's intercoder agreement exceeds that of both
crowd-workers and trained annotators for all tasks. Moreover, the
per-annotation cost of ChatGPT is less than $0.003 -- about twenty times
cheaper than MTurk. These results show the potential of large language models
to drastically increase the efficiency of text classification.
- Abstract(参考訳): 多くのnlpアプリケーションは様々なタスク、特に分類器の訓練や教師なしモデルの性能評価のために手動のデータアノテーションを必要とする。
作業の規模や複雑さによっては、mturkのようなプラットフォーム上のクラウドワーカーや、研究アシスタントのような訓練された注釈家によって作業が行われる。
2,382ツイートのサンプルを使って、chatgptは、関連性、スタンス、トピック、フレーム検出など、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れています。
特に、ChatGPTのゼロショット精度は5つのタスクのうち4つのタスクでクラウドワーカーよりも高く、ChatGPTのインターコーダ契約は、すべてのタスクでクラウドワーカーとトレーニングアノテータの両方よりも高い。
さらに、ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
これらの結果は,大規模言語モデルがテキスト分類の効率を大幅に向上させる可能性を示している。
関連論文リスト
- Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文 参考訳(メタデータ) (2023-11-09T22:28:14Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Exploring the Feasibility of ChatGPT for Event Extraction [31.175880361951172]
イベント抽出は、自然言語処理における基本的なタスクであり、テキストで言及されたイベントに関する情報を特定し、抽出する。
ChatGPTは、タスク固有のデータセットや微調整を必要とせずに、単純なプロンプトで言語タスクを解決する機会を提供する。
また,ChatGPTは,脳波や複雑なシナリオにおけるタスク固有モデルの性能の51.04%に過ぎなかった。
論文 参考訳(メタデータ) (2023-03-07T12:03:58Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。