Fugu-MT 論文翻訳(概要): If in a Crowdsourced Data Annotation Pipeline, a GPT-4

論文の概要: If in a Crowdsourced Data Annotation Pipeline, a GPT-4

arxiv url: http://arxiv.org/abs/2402.16795v2
Date: Fri, 28 Jun 2024 19:33:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 14:58:55.528256
Title: If in a Crowdsourced Data Annotation Pipeline, a GPT-4
Title（参考訳）: GPT-4というクラウドソースデータアノテーションパイプラインの場合
Authors: Zeyu He, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Shaurya Rohatgi, Ting-Hao 'Kenneth' Huang,
Abstract要約: 本稿では,GPT-4と倫理的かつ優れたMTurkパイプラインを比較した。ベストプラクティスにもかかわらず、MTurkパイプラインの最高精度は81.5%であり、GPT-4は83.6%に達した。
参考スコア（独自算出の注目度）: 12.898580978312848
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies indicated GPT-4 outperforms online crowd workers in data labeling accuracy, notably workers from Amazon Mechanical Turk (MTurk). However, these studies were criticized for deviating from standard crowdsourcing practices and emphasizing individual workers' performances over the whole data-annotation process. This paper compared GPT-4 and an ethical and well-executed MTurk pipeline, with 415 workers labeling 3,177 sentence segments from 200 scholarly articles using the CODA-19 scheme. Two worker interfaces yielded 127,080 labels, which were then used to infer the final labels through eight label-aggregation algorithms. Our evaluation showed that despite best practices, MTurk pipeline's highest accuracy was 81.5%, whereas GPT-4 achieved 83.6%. Interestingly, when combining GPT-4's labels with crowd labels collected via an advanced worker interface for aggregation, 2 out of the 8 algorithms achieved an even higher accuracy (87.5%, 87.0%). Further analysis suggested that, when the crowd's and GPT-4's labeling strengths are complementary, aggregating them could increase labeling accuracy.
Abstract（参考訳）: 近年の研究では、GPT-4は、特にAmazon Mechanical Turk(MTurk)の労働者において、データのラベル付け精度において、オンラインの群衆労働者よりも優れていた。しかし、これらの研究は、標準的なクラウドソーシングの実践から逸脱し、データアノテーションプロセス全体を通して個々の労働者のパフォーマンスを強調したとして批判された。本稿は,CODA-19方式を用いて,200の学術論文から3,177の文節をラベル付けした415人の労働者を対象に,GPT-4と倫理的かつ周知なMTurkパイプラインを比較した。 2つのワーカインタフェースは127,080のラベルを出力し、8つのラベル集約アルゴリズムによって最終ラベルを推測するために使用された。評価の結果, MTurkパイプラインの精度は81.5%, GPT-4は83.6%であった。興味深いことに、GPT-4のラベルと高度なワーカーインタフェースを通じて収集された群衆ラベルを組み合わせると、8つのアルゴリズムのうち2つはより高い精度(87.5%、87.0%)を達成した。さらに分析したところ、群衆とGPT-4のラベリング強度が相補的であれば、それらのアグリゲーションはラベリング精度を高めることが示唆された。

関連論文リスト

SKG-LLM: Developing a Mathematical Model for Stroke Knowledge Graph Construction Using Large Language Models [0.0]
数学的および大規模言語モデル(LLM)を用いた脳卒中関連記事から知識グラフ(KG)を構築する SKG-LLMは、脳卒中研究におけるKGの精度と深さを高めるために、生体医学文献から複雑な関係を抽出し、整理する。
論文参考訳（メタデータ） (2025-03-09T06:25:37Z)
Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media [2.07180164747172]
大規模言語モデル(LLM)は、労働集約的な人間の感情分析プロセスの合理化に役立つ。本研究では,加熱タバコ製品(HTP)に関するソーシャルメディアメッセージの人間感情評価の再現におけるLCMの精度について検討した。 LLMはHTP関連ソーシャルメディアメッセージの感情分析に使用することができ、GPT-4 Turboは人間の専門家と比較して約80%の精度である。
論文参考訳（メタデータ） (2025-01-31T20:35:30Z)
Multi-stage Large Language Model Pipelines Can Outperform GPT-4o in Relevance Assessment [6.947361774195549]
関連性評価タスクを複数の段階に分割するモジュール分類パイプラインを提案する。我々のアプローチの1つは、OpenAIのGPT-4o miniよりも18.4%のKrippendorffの$alpha$精度が向上したことを示している。
論文参考訳（メタデータ） (2025-01-24T07:33:39Z)
Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-06T04:41:13Z)
Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models [2.186740861187042]
メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル (LLM) の可能性について検討する。 NCBI BioSampleレポジトリの肺がん関連サンプルを無作為に記録した200データについて実験を行った。
論文参考訳（メタデータ） (2024-04-08T22:29:53Z)
A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course [0.0]
そこで本研究では,学習者のみに対するChatGPT変種であるGPT-3.5とGPT-4の性能評価を行った。学生の平均は91.9%(SE:0.4)で、AI応募の最高水準、即興エンジニアリングのGPT-4を上回り、81.1%(SE:0.8)と統計的に有意な差(p = 2.482×10-10$)を示した。盲目マーカーは、Definitely の 4-point Likert スケールで、提出書の著者を推測する作業であった。
論文参考訳（メタデータ） (2024-03-25T17:41:02Z)
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文参考訳（メタデータ） (2023-11-27T11:29:10Z)
Automated title and abstract screening for scoping reviews using the GPT-4 Large Language Model [0.0]
GPTscreenRは、GPT-4 Large Language Model (LLM) を使用してソースを自動的にスクリーニングするR統計プログラミング言語のパッケージである。 GPTscreenRは、コンセンサス・ヒューマン・レビュアーの決定に対する検証において、感度71%、特異性89%、全体的な精度84%という、代替のゼロショット・テクニックと同様に実行された。
論文参考訳（メタデータ） (2023-11-14T05:30:43Z)
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。 Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文参考訳（メタデータ） (2023-10-12T16:50:08Z)
Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-05-24T11:26:59Z)
Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-04-19T16:29:48Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)
Learning to Purify Noisy Labels via Meta Soft Label Corrector [49.92310583232323]
最近のディープニューラルネットワーク(DNN)は、ノイズラベルによるバイアス付きトレーニングデータに容易に適合する。ラベル修正戦略はこの問題を軽減するために一般的に用いられる。メタ学習モデルを提案する。
論文参考訳（メタデータ） (2020-08-03T03:25:17Z)
Semi-Supervised Learning with Data Augmentation for End-to-End ASR [4.878819328459915]
我々は、画像分類タスクにうまく適用された整合正則化原理に着目する。 We present sequence-to-sequence (seq2seq) version of the FixMatch and Noisy Students algorithm。
論文参考訳（メタデータ） (2020-07-27T21:24:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。