論文の概要: Chatbots Are Not Reliable Text Annotators
- arxiv url: http://arxiv.org/abs/2311.05769v1
- Date: Thu, 9 Nov 2023 22:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:37:15.196778
- Title: Chatbots Are Not Reliable Text Annotators
- Title(参考訳): チャットボットは信頼できないテキストアノテーション
- Authors: Ross Deans Kristensen-McLachlan, Miceal Canavan, M\'arton Kardos, Mia
Jacobsen, Lene Aar{\o}e
- Abstract要約: ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent research highlights the significant potential of ChatGPT for text
annotation in social science research. However, ChatGPT is a closed-source
product which has major drawbacks with regards to transparency,
reproducibility, cost, and data protection. Recent advances in open-source (OS)
large language models (LLMs) offer alternatives which remedy these challenges.
This means that it is important to evaluate the performance of OS LLMs relative
to ChatGPT and standard approaches to supervised machine learning
classification. We conduct a systematic comparative evaluation of the
performance of a range of OS LLM models alongside ChatGPT, using both zero- and
few-shot learning as well as generic and custom prompts, with results compared
to more traditional supervised classification models. Using a new dataset of
Tweets from US news media, and focusing on simple binary text annotation tasks
for standard social science concepts, we find significant variation in the
performance of ChatGPT and OS models across the tasks, and that supervised
classifiers consistently outperform both. Given the unreliable performance of
ChatGPT and the significant challenges it poses to Open Science we advise
against using ChatGPT for substantive text annotation tasks in social science
research.
- Abstract(参考訳): 最近の研究は、社会科学研究におけるテキストアノテーションにおけるChatGPTの意義を強調している。
しかし、ChatGPTはクローズドソース製品であり、透明性、再現性、コスト、データ保護に関して大きな欠点がある。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
これは、ChatGPTに対するOS LLMの性能評価と、教師あり機械学習分類への標準アプローチが重要であることを意味する。
我々は,従来の教師付き分類モデルと比較して,ゼロショット学習とマイストショット学習,ジェネリックプロンプトとカスタムプロンプトを用いて,chatgptと並行してos llmモデルの性能を体系的に比較評価する。
米国のニュースメディアからの新しいつぶやきのデータセットを用いて、標準的な社会科学概念のための単純なバイナリテキストアノテーションタスクに注目し、タスク間でChatGPTとOSモデルのパフォーマンスに大きなばらつきが見られ、教師付き分類器はどちらも一貫して優れています。
ChatGPTの信頼性の低いパフォーマンスと、それがOpen Scienceにもたらす重要な課題を踏まえ、社会科学研究における実体的テキストアノテーションタスクにChatGPTを使用することを推奨する。
関連論文リスト
- Is ChatGPT the Future of Causal Text Mining? A Comprehensive Evaluation
and Analysis [8.031131164056347]
本研究はChatGPTの因果テキストマイニング機能に関する総合的な評価を行う。
一般的な英語データセットを超えて拡張するベンチマークを導入する。
また、ChatGPTと従来のアプローチとの公正な比較を保証するための評価フレームワークも提供する。
論文 参考訳(メタデータ) (2024-02-22T12:19:04Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Towards LLM-driven Dialogue State Tracking [13.679946384741008]
GPT3やChatGPTのような大規模言語モデル(LLM)は、様々なアプリケーションで有効性を評価することにかなりの関心を集めている。
LDST(LDST)は,より小型でオープンソースの基盤モデルに基づくLLM駆動の対話状態追跡フレームワークである。
LDSTは,従来のSOTA法と比較して,ゼロショットと少数ショットの両方で顕著な性能向上を示した。
論文 参考訳(メタデータ) (2023-10-23T14:15:28Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries
Through Blinded Reviewers and Text Classification Algorithms [0.8339831319589133]
OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたものだ。
自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:28:33Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。