論文の概要: Can ChatGPT Reproduce Human-Generated Labels? A Study of Social
Computing Tasks
- arxiv url: http://arxiv.org/abs/2304.10145v2
- Date: Sat, 22 Apr 2023 08:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 11:20:28.100162
- Title: Can ChatGPT Reproduce Human-Generated Labels? A Study of Social
Computing Tasks
- Title(参考訳): ChatGPTは人間生成ラベルを再現できるか?
ソーシャル・コンピューティングの課題に関する研究
- Authors: Yiming Zhu, Peixian Zhang, Ehsan-Ul Haq, Pan Hui, Gareth Tyson
- Abstract要約: ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。
姿勢検出(2x),感情分析,ヘイトスピーチ,ボット検出の5つのデータセットを抽出した。
この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
- 参考スコア(独自算出の注目度): 9.740764281808588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The release of ChatGPT has uncovered a range of possibilities whereby large
language models (LLMs) can substitute human intelligence. In this paper, we
seek to understand whether ChatGPT has the potential to reproduce
human-generated label annotations in social computing tasks. Such an
achievement could significantly reduce the cost and complexity of social
computing research. As such, we use ChatGPT to relabel five seminal datasets
covering stance detection (2x), sentiment analysis, hate speech, and bot
detection. Our results highlight that ChatGPT does have the potential to handle
these data annotation tasks, although a number of challenges remain. ChatGPT
obtains an average accuracy 0.609. Performance is highest for the sentiment
analysis dataset, with ChatGPT correctly annotating 64.9% of tweets. Yet, we
show that performance varies substantially across individual labels. We believe
this work can open up new lines of analysis and act as a basis for future
research into the exploitation of ChatGPT for human annotation tasks.
- Abstract(参考訳): ChatGPTのリリースにより、大きな言語モデル(LLM)が人間のインテリジェンスに取って代わる可能性があることが判明した。
本稿では,ChatGPTがソーシャル・コンピューティング・タスクにおいて人為的ラベルアノテーションを再現する可能性について考察する。
このような成果は、社会コンピューティング研究のコストと複雑さを大幅に削減することができる。
そこで、ChatGPTを用いて、姿勢検出(2x)、感情分析、ヘイトスピーチ、ボット検出を含む5つのセミナルデータセットをラバーする。
この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
ChatGPTは平均精度0.609を得る。
感情分析データセットのパフォーマンスは最高であり、ChatGPTは64.9%のツイートを正しく注釈付けしている。
しかし、パフォーマンスは個々のラベルによって大きく異なります。
この研究は、新しい分析ラインを開き、人的アノテーションタスクに対するchatgptの利用に関する将来の研究の基盤として機能すると信じています。
関連論文リスト
- Exploring the Capability of ChatGPT to Reproduce Human Labels for Social Computing Tasks (Extended Version) [26.643834593780007]
ソーシャルコンピューティングタスクにおいてChatGPTがデータアノテートできる範囲について検討する。
ChatGPTは、いくつかの課題があるにもかかわらず、データアノテーションタスクの処理における約束を示す。
本稿では,ChatGPTが与えられたアノテーションタスクのデータを正しくラベル付けできるかどうかを予測するツールであるGPT-Raterを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:04:30Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - Is Information Extraction Solved by ChatGPT? An Analysis of Performance,
Evaluation Criteria, Robustness and Errors [14.911130381374793]
最初にChatGPTのパフォーマンスを、ゼロショット、少数ショット、チェーンオブ思考のシナリオの下で14のIEサブタスクを持つ17のデータセットで評価した。
次に、14のIEサブタスクにおけるChatGPTのロバスト性を分析し、1)ChatGPTが無効な応答をほとんど出力しないこと、2)ChatGPTの性能に関係のないコンテキストと長期ターゲットタイプが大きな影響を与えること、3)ChatGPTはREタスクにおける主観的対象関係をうまく理解できないこと、を見出した。
論文 参考訳(メタデータ) (2023-05-23T18:17:43Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation,
and Detection [8.107721810172112]
ChatGPTは、幅広い人間の質問に効果的に反応できる。
人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。
本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
論文 参考訳(メタデータ) (2023-01-18T15:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。