Fugu-MT 論文翻訳(概要): A Comparison of Human and ChatGPT Classification Performance on Complex Social Media Data

論文の概要: A Comparison of Human and ChatGPT Classification Performance on Complex Social Media Data

arxiv url: http://arxiv.org/abs/2512.00673v1
Date: Sat, 29 Nov 2025 23:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-02 19:46:34.353107
Title: A Comparison of Human and ChatGPT Classification Performance on Complex Social Media Data
Title（参考訳）: 複雑なソーシャルメディアデータを用いた人間とチャットGPTの分類性能の比較
Authors: Breanna E. Green, Ashley L. Shea, Pengfei Zhao, Drew B. Margolin,
Abstract要約: 一つのタスクにおけるGPT-4の性能を計測し、その結果をヒトのアノテータと比較する。入力として4つのプロンプトスタイルを作成し、精度、リコール、F1スコアを評価します。この結果から, ニュアンス言語を含む分類作業におけるChatGPTの使用は, プルーデンスで行うべきであることが示唆された。
参考スコア（独自算出の注目度）: 7.492722530877262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative artificial intelligence tools, like ChatGPT, are an increasingly utilized resource among computational social scientists. Nevertheless, there remains space for improved understanding of the performance of ChatGPT in complex tasks such as classifying and annotating datasets containing nuanced language. Method. In this paper, we measure the performance of GPT-4 on one such task and compare results to human annotators. We investigate ChatGPT versions 3.5, 4, and 4o to examine performance given rapid changes in technological advancement of large language models. We craft four prompt styles as input and evaluate precision, recall, and F1 scores. Both quantitative and qualitative evaluations of results demonstrate that while including label definitions in prompts may help performance, overall GPT-4 has difficulty classifying nuanced language. Qualitative analysis reveals four specific findings. Our results suggest the use of ChatGPT in classification tasks involving nuanced language should be conducted with prudence.
Abstract（参考訳）: ChatGPTのような生成人工知能ツールは、計算社会科学者の間でますます活用されているリソースである。それでも、ニュアンス言語を含むデータセットの分類や注釈付けといった複雑なタスクでは、ChatGPTのパフォーマンスに関する理解を深める余地は残っている。方法。本稿では,1つのタスクにおけるGPT-4の性能を測定し,その結果を人間のアノテータと比較する。そこで我々はChatGPTバージョン3.5,4,4oについて検討し,大規模言語モデルの技術的進歩の急速な変化を考慮した性能評価を行った。入力として4つのプロンプトスタイルを作成し、精度、リコール、F1スコアを評価します。結果の定量的および定性的な評価は、ラベル定義をプロンプトに含めることによって性能が向上することを示したが、総合的な GPT-4 はニュアンス言語を分類することが困難である。定性的分析により4つの特異な所見が明らかになった。この結果から, ニュアンス言語を含む分類作業におけるChatGPTの使用は, プルーデンスで行うべきであることが示唆された。

関連論文リスト

ChatGraph: Interpretable Text Classification by Converting ChatGPT Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文参考訳（メタデータ） (2023-05-03T19:57:43Z)
Empirical Evaluation of ChatGPT on Requirements Information Retrieval Under Zero-Shot Setting [12.733403458944972]
要求情報検索タスクにおいてChatGPTの性能を実証的に評価する。ゼロショット設定では、ChatGPTが要求情報を検索する有望な能力を示す。
論文参考訳（メタデータ） (2023-04-25T04:09:45Z)
To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文参考訳（メタデータ） (2023-04-04T03:04:28Z)
Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences [6.821378903525802]
ChatGPTは、コンテンツ評価における精度と信頼性の顕著なレベルを一貫して証明している。幅広いユースケースをカバーするプロンプトからなるテストセットを作成し、5つのモデルを使用して対応する応答を生成する。テストセットの結果は、ChatGPTのランク設定が人間とある程度一致していることを示している。
論文参考訳（メタデータ） (2023-03-14T03:13:02Z)
Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文参考訳（メタデータ） (2023-03-07T16:57:20Z)
ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。 25種類のNLPタスクにおけるChatGPTの機能について検討した。われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文参考訳（メタデータ） (2023-02-21T15:20:37Z)
Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文参考訳（メタデータ） (2023-02-08T09:44:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。