論文の概要: A Comparison of Human and ChatGPT Classification Performance on Complex Social Media Data
- arxiv url: http://arxiv.org/abs/2512.00673v1
- Date: Sat, 29 Nov 2025 23:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.353107
- Title: A Comparison of Human and ChatGPT Classification Performance on Complex Social Media Data
- Title(参考訳): 複雑なソーシャルメディアデータを用いた人間とチャットGPTの分類性能の比較
- Authors: Breanna E. Green, Ashley L. Shea, Pengfei Zhao, Drew B. Margolin,
- Abstract要約: 一つのタスクにおけるGPT-4の性能を計測し、その結果をヒトのアノテータと比較する。
入力として4つのプロンプトスタイルを作成し、精度、リコール、F1スコアを評価します。
この結果から, ニュアンス言語を含む分類作業におけるChatGPTの使用は, プルーデンスで行うべきであることが示唆された。
- 参考スコア(独自算出の注目度): 7.492722530877262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence tools, like ChatGPT, are an increasingly utilized resource among computational social scientists. Nevertheless, there remains space for improved understanding of the performance of ChatGPT in complex tasks such as classifying and annotating datasets containing nuanced language. Method. In this paper, we measure the performance of GPT-4 on one such task and compare results to human annotators. We investigate ChatGPT versions 3.5, 4, and 4o to examine performance given rapid changes in technological advancement of large language models. We craft four prompt styles as input and evaluate precision, recall, and F1 scores. Both quantitative and qualitative evaluations of results demonstrate that while including label definitions in prompts may help performance, overall GPT-4 has difficulty classifying nuanced language. Qualitative analysis reveals four specific findings. Our results suggest the use of ChatGPT in classification tasks involving nuanced language should be conducted with prudence.
- Abstract(参考訳): ChatGPTのような生成人工知能ツールは、計算社会科学者の間でますます活用されているリソースである。
それでも、ニュアンス言語を含むデータセットの分類や注釈付けといった複雑なタスクでは、ChatGPTのパフォーマンスに関する理解を深める余地は残っている。
方法。
本稿では,1つのタスクにおけるGPT-4の性能を測定し,その結果を人間のアノテータと比較する。
そこで我々はChatGPTバージョン3.5,4,4oについて検討し,大規模言語モデルの技術的進歩の急速な変化を考慮した性能評価を行った。
入力として4つのプロンプトスタイルを作成し、精度、リコール、F1スコアを評価します。
結果の定量的および定性的な評価は、ラベル定義をプロンプトに含めることによって性能が向上することを示したが、総合的な GPT-4 はニュアンス言語を分類することが困難である。
定性的分析により4つの特異な所見が明らかになった。
この結果から, ニュアンス言語を含む分類作業におけるChatGPTの使用は, プルーデンスで行うべきであることが示唆された。
関連論文リスト
- Evaluating ChatGPT on Medical Information Extraction Tasks: Performance, Explainability and Beyond [3.615835506868351]
6つのベンチマークデータセットにわたる4つの異なる医療情報抽出(MedIE)タスクにおいて、ChatGPTの全体的な能力を評価することに重点を置いている。
本稿では,ChatGPTの性能,説明可能性,信頼度,信頼度,不確実性を測定し,系統分析を行った。
論文 参考訳(メタデータ) (2026-01-29T14:16:51Z) - On Fusing ChatGPT and Ensemble Learning in Discon-tinuous Named Entity Recognition in Health Corpora [0.0]
アンサンブル法における調停器としてのChatGPTの統合について検討し,DNERタスクの性能向上を目的とした。
提案手法は,5つの最先端NERモデルとChatGPTを組み合わせたカスタムプロンプトエンジニアリングを用いて,アンサンブルアルゴリズムの堅牢性と一般化能力を評価する。
その結果,ChatGPTとアンサンブル学習アルゴリズムの融合はCADEC,ShARe13,ShARe14データセットにおいてSOTAよりも優れていた。
論文 参考訳(メタデータ) (2024-12-22T11:26:49Z) - GPTAraEval: A Comprehensive Evaluation of ChatGPT on Arabic NLP [21.6253870440136]
本研究は,44の言語理解・生成タスクを含むChatGPTの大規模自動・人為的評価を行う。
以上の結果から,ChatGPTは英語における顕著な性能にもかかわらず,アラビア語を微調整した小型モデルでは一貫して上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T10:12:39Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - Empirical Evaluation of ChatGPT on Requirements Information Retrieval
Under Zero-Shot Setting [12.733403458944972]
要求情報検索タスクにおいてChatGPTの性能を実証的に評価する。
ゼロショット設定では、ChatGPTが要求情報を検索する有望な能力を示す。
論文 参考訳(メタデータ) (2023-04-25T04:09:45Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on
Consistency with Human Preferences [6.821378903525802]
ChatGPTは、コンテンツ評価における精度と信頼性の顕著なレベルを一貫して証明している。
幅広いユースケースをカバーするプロンプトからなるテストセットを作成し、5つのモデルを使用して対応する応答を生成する。
テストセットの結果は、ChatGPTのランク設定が人間とある程度一致していることを示している。
論文 参考訳(メタデータ) (2023-03-14T03:13:02Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。