Fugu-MT 論文翻訳(概要): Are Chatbots Reliable Text Annotators? Sometimes

論文の概要: Are Chatbots Reliable Text Annotators? Sometimes

arxiv url: http://arxiv.org/abs/2311.05769v2
Date: Tue, 25 Feb 2025 09:57:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:43.937572
Title: Are Chatbots Reliable Text Annotators? Sometimes
Title（参考訳）: チャットボットは信頼できるテキストアノテータか?
Authors: Ross Deans Kristensen-McLachlan, Miceal Canavan, Márton Kardos, Mia Jacobsen, Lene Aarøe,
Abstract要約: ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの欠点のない代替手段を提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent research highlights the significant potential of ChatGPT for text annotation in social science research. However, ChatGPT is a closed-source product which has major drawbacks with regards to transparency, reproducibility, cost, and data protection. Recent advances in open-source (OS) large language models (LLMs) offer an alternative without these drawbacks. Thus, it is important to evaluate the performance of OS LLMs relative to ChatGPT and standard approaches to supervised machine learning classification. We conduct a systematic comparative evaluation of the performance of a range of OS LLMs alongside ChatGPT, using both zero- and few-shot learning as well as generic and custom prompts, with results compared to supervised classification models. Using a new dataset of tweets from US news media, and focusing on simple binary text annotation tasks, we find significant variation in the performance of ChatGPT and OS models across the tasks, and that the supervised classifier using DistilBERT generally outperforms both. Given the unreliable performance of ChatGPT and the significant challenges it poses to Open Science we advise caution when using ChatGPT for substantive text annotation tasks.
Abstract（参考訳）: 最近の研究は、社会科学研究におけるテキストアノテーションにおけるChatGPTの有意義な可能性を強調している。しかし、ChatGPTはクローズドソース製品であり、透明性、再現性、コスト、データ保護に関して大きな欠点がある。オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの欠点のない代替手段を提供する。したがって、ChatGPTに対するOS LLMの性能評価と、教師あり機械学習分類への標準アプローチが重要である。我々はChatGPTと共に,ゼロショット学習と少数ショット学習の両方と汎用的およびカスタムなプロンプトを用いて,OS LLMの性能を体系的に比較し,教師付き分類モデルと比較した。米国のニュースメディアからの新しいつぶやきのデータセットを用いて、単純なバイナリテキストアノテーションタスクに着目し、タスク間でChatGPTとOSモデルの性能に大きな変化が見られ、DistilBERTを用いた教師付き分類器は、一般的に両者より優れていることが判明した。 ChatGPTの信頼性の低いパフォーマンスと、それがOpen Scienceにもたらす重要な課題を考慮し、静的テキストアノテーションタスクにChatGPTを使用する場合、注意するようアドバイスします。

関連論文リスト

Exploring the Capability of ChatGPT to Reproduce Human Labels for Social Computing Tasks (Extended Version) [26.643834593780007]
ソーシャルコンピューティングタスクにおいてChatGPTがデータアノテートできる範囲について検討する。 ChatGPTは、いくつかの課題があるにもかかわらず、データアノテーションタスクの処理における約束を示す。本稿では,ChatGPTが与えられたアノテーションタスクのデータを正しくラベル付けできるかどうかを予測するツールであるGPT-Raterを提案する。
論文参考訳（メタデータ） (2024-07-08T22:04:30Z)
Is ChatGPT the Future of Causal Text Mining? A Comprehensive Evaluation and Analysis [8.031131164056347]
本研究はChatGPTの因果テキストマイニング機能に関する総合的な評価を行う。一般的な英語データセットを超えて拡張するベンチマークを導入する。また、ChatGPTと従来のアプローチとの公正な比較を保証するための評価フレームワークも提供する。
論文参考訳（メタデータ） (2024-02-22T12:19:04Z)
Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文参考訳（メタデータ） (2023-11-11T11:01:13Z)
Towards LLM-driven Dialogue State Tracking [13.679946384741008]
GPT3やChatGPTのような大規模言語モデル(LLM)は、様々なアプリケーションで有効性を評価することにかなりの関心を集めている。 LDST(LDST)は,より小型でオープンソースの基盤モデルに基づくLLM駆動の対話状態追跡フレームワークである。 LDSTは,従来のSOTA法と比較して,ゼロショットと少数ショットの両方で顕著な性能向上を示した。
論文参考訳（メタデータ） (2023-10-23T14:15:28Z)
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文参考訳（メタデータ） (2023-05-29T12:37:21Z)
Automatic Code Summarization via ChatGPT: How Far Are We? [10.692654700225411]
CSN-Pythonと呼ばれる広く使われているPythonデータセット上でChatGPTを評価する。 BLEUとROUGE-Lでは、ChatGPTのコード要約性能は3つのSOTAモデルと比べて著しく劣っている。この結果に基づき、ChatGPTベースのコード要約におけるいくつかのオープンな課題と機会を概説する。
論文参考訳（メタデータ） (2023-05-22T09:43:40Z)
ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文参考訳（メタデータ） (2023-04-12T05:08:52Z)
To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文参考訳（メタデータ） (2023-04-04T03:04:28Z)
Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries Through Blinded Reviewers and Text Classification Algorithms [0.8339831319589133]
OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたものだ。自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:28:33Z)
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (2023-03-08T03:56:31Z)
Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文参考訳（メタデータ） (2023-03-07T16:57:20Z)
Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文参考訳（メタデータ） (2023-02-16T04:41:30Z)
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。 ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文参考訳（メタデータ） (2023-02-08T12:35:34Z)
Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文参考訳（メタデータ） (2023-02-08T09:44:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。