Fugu-MT 論文翻訳(概要): ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

論文の概要: ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

arxiv url: http://arxiv.org/abs/2303.15056v2
Date: Wed, 19 Jul 2023 14:10:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 17:24:06.969488
Title: ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
Title（参考訳）: chatgptはテキスト注釈タスクでクラウドワーカーを上回る
Authors: Fabrizio Gilardi, Meysam Alizadeh, Ma\"el Kubli
Abstract要約: また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。 ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many NLP applications require manual data annotations for a variety of tasks, notably to train classifiers or evaluate the performance of unsupervised models. Depending on the size and degree of complexity, the tasks may be conducted by crowd-workers on platforms such as MTurk as well as trained annotators, such as research assistants. Using a sample of 2,382 tweets, we demonstrate that ChatGPT outperforms crowd-workers for several annotation tasks, including relevance, stance, topics, and frames detection. Specifically, the zero-shot accuracy of ChatGPT exceeds that of crowd-workers for four out of five tasks, while ChatGPT's intercoder agreement exceeds that of both crowd-workers and trained annotators for all tasks. Moreover, the per-annotation cost of ChatGPT is less than $0.003 -- about twenty times cheaper than MTurk. These results show the potential of large language models to drastically increase the efficiency of text classification.
Abstract（参考訳）: 多くのnlpアプリケーションは様々なタスク、特に分類器の訓練や教師なしモデルの性能評価のために手動のデータアノテーションを必要とする。作業の規模や複雑さによっては、mturkのようなプラットフォーム上のクラウドワーカーや、研究アシスタントのような訓練された注釈家によって作業が行われる。 2,382ツイートのサンプルを使って、chatgptは、関連性、スタンス、トピック、フレーム検出など、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れています。特に、ChatGPTのゼロショット精度は5つのタスクのうち4つのタスクでクラウドワーカーよりも高く、ChatGPTのインターコーダ契約は、すべてのタスクでクラウドワーカーとトレーニングアノテータの両方よりも高い。さらに、ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。これらの結果は,大規模言語モデルがテキスト分類の効率を大幅に向上させる可能性を示している。

関連論文リスト

A Comparison of Human and ChatGPT Classification Performance on Complex Social Media Data [7.492722530877262]
一つのタスクにおけるGPT-4の性能を計測し、その結果をヒトのアノテータと比較する。入力として4つのプロンプトスタイルを作成し、精度、リコール、F1スコアを評価します。この結果から, ニュアンス言語を含む分類作業におけるChatGPTの使用は, プルーデンスで行うべきであることが示唆された。
論文参考訳（メタデータ） (2025-11-29T23:59:58Z)
Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文参考訳（メタデータ） (2023-11-11T11:01:13Z)
Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文参考訳（メタデータ） (2023-11-09T22:28:14Z)
Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。 NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文参考訳（メタデータ） (2023-06-16T09:40:05Z)
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文参考訳（メタデータ） (2023-05-29T12:37:21Z)
ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (2023-04-12T05:08:52Z)
Exploring the Feasibility of ChatGPT for Event Extraction [31.175880361951172]
イベント抽出は、自然言語処理における基本的なタスクであり、テキストで言及されたイベントに関する情報を特定し、抽出する。 ChatGPTは、タスク固有のデータセットや微調整を必要とせずに、単純なプロンプトで言語タスクを解決する機会を提供する。また,ChatGPTは,脳波や複雑なシナリオにおけるタスク固有モデルの性能の51.04%に過ぎなかった。
論文参考訳（メタデータ） (2023-03-07T12:03:58Z)
Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-02-19T12:29:33Z)
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。 ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文参考訳（メタデータ） (2023-02-08T12:35:34Z)
Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文参考訳（メタデータ） (2023-02-08T09:44:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。