論文の概要: If in a Crowdsourced Data Annotation Pipeline, a GPT-4
- arxiv url: http://arxiv.org/abs/2402.16795v2
- Date: Fri, 28 Jun 2024 19:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:58:55.528256
- Title: If in a Crowdsourced Data Annotation Pipeline, a GPT-4
- Title(参考訳): GPT-4というクラウドソースデータアノテーションパイプラインの場合
- Authors: Zeyu He, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Shaurya Rohatgi, Ting-Hao 'Kenneth' Huang,
- Abstract要約: 本稿では,GPT-4と倫理的かつ優れたMTurkパイプラインを比較した。
ベストプラクティスにもかかわらず、MTurkパイプラインの最高精度は81.5%であり、GPT-4は83.6%に達した。
- 参考スコア(独自算出の注目度): 12.898580978312848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies indicated GPT-4 outperforms online crowd workers in data labeling accuracy, notably workers from Amazon Mechanical Turk (MTurk). However, these studies were criticized for deviating from standard crowdsourcing practices and emphasizing individual workers' performances over the whole data-annotation process. This paper compared GPT-4 and an ethical and well-executed MTurk pipeline, with 415 workers labeling 3,177 sentence segments from 200 scholarly articles using the CODA-19 scheme. Two worker interfaces yielded 127,080 labels, which were then used to infer the final labels through eight label-aggregation algorithms. Our evaluation showed that despite best practices, MTurk pipeline's highest accuracy was 81.5%, whereas GPT-4 achieved 83.6%. Interestingly, when combining GPT-4's labels with crowd labels collected via an advanced worker interface for aggregation, 2 out of the 8 algorithms achieved an even higher accuracy (87.5%, 87.0%). Further analysis suggested that, when the crowd's and GPT-4's labeling strengths are complementary, aggregating them could increase labeling accuracy.
- Abstract(参考訳): 近年の研究では、GPT-4は、特にAmazon Mechanical Turk(MTurk)の労働者において、データのラベル付け精度において、オンラインの群衆労働者よりも優れていた。
しかし、これらの研究は、標準的なクラウドソーシングの実践から逸脱し、データアノテーションプロセス全体を通して個々の労働者のパフォーマンスを強調したとして批判された。
本稿は,CODA-19方式を用いて,200の学術論文から3,177の文節をラベル付けした415人の労働者を対象に,GPT-4と倫理的かつ周知なMTurkパイプラインを比較した。
2つのワーカインタフェースは127,080のラベルを出力し、8つのラベル集約アルゴリズムによって最終ラベルを推測するために使用された。
評価の結果, MTurkパイプラインの精度は81.5%, GPT-4は83.6%であった。
興味深いことに、GPT-4のラベルと高度なワーカーインタフェースを通じて収集された群衆ラベルを組み合わせると、8つのアルゴリズムのうち2つはより高い精度(87.5%、87.0%)を達成した。
さらに分析したところ、群衆とGPT-4のラベリング強度が相補的であれば、それらのアグリゲーションはラベリング精度を高めることが示唆された。
関連論文リスト
- Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。
テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。
解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-06T04:41:13Z) - Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models [2.186740861187042]
メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。
本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル (LLM) の可能性について検討する。
NCBI BioSampleレポジトリの肺がん関連サンプルを無作為に記録した200データについて実験を行った。
論文 参考訳(メタデータ) (2024-04-08T22:29:53Z) - A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course [0.0]
そこで本研究では,学習者のみに対するChatGPT変種であるGPT-3.5とGPT-4の性能評価を行った。
学生の平均は91.9%(SE:0.4)で、AI応募の最高水準、即興エンジニアリングのGPT-4を上回り、81.1%(SE:0.8)と統計的に有意な差(p = 2.482×10-10$)を示した。
盲目マーカーは、Definitely の 4-point Likert スケールで、提出書の著者を推測する作業であった。
論文 参考訳(メタデータ) (2024-03-25T17:41:02Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Automated title and abstract screening for scoping reviews using the
GPT-4 Large Language Model [0.0]
GPTscreenRは、GPT-4 Large Language Model (LLM) を使用してソースを自動的にスクリーニングするR統計プログラミング言語のパッケージである。
GPTscreenRは、コンセンサス・ヒューマン・レビュアーの決定に対する検証において、感度71%、特異性89%、全体的な精度84%という、代替のゼロショット・テクニックと同様に実行された。
論文 参考訳(メタデータ) (2023-11-14T05:30:43Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Learning to Purify Noisy Labels via Meta Soft Label Corrector [49.92310583232323]
最近のディープニューラルネットワーク(DNN)は、ノイズラベルによるバイアス付きトレーニングデータに容易に適合する。
ラベル修正戦略はこの問題を軽減するために一般的に用いられる。
メタ学習モデルを提案する。
論文 参考訳(メタデータ) (2020-08-03T03:25:17Z) - Semi-Supervised Learning with Data Augmentation for End-to-End ASR [4.878819328459915]
我々は、画像分類タスクにうまく適用された整合正則化原理に着目する。
We present sequence-to-sequence (seq2seq) version of the FixMatch and Noisy Students algorithm。
論文 参考訳(メタデータ) (2020-07-27T21:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。