論文の概要: Open-Source Large Language Models Outperform Crowd Workers and Approach
ChatGPT in Text-Annotation Tasks
- arxiv url: http://arxiv.org/abs/2307.02179v1
- Date: Wed, 5 Jul 2023 10:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:15:22.154408
- Title: Open-Source Large Language Models Outperform Crowd Workers and Approach
ChatGPT in Text-Annotation Tasks
- Title(参考訳): オープンソースの大規模言語モデルがクラウドワーカーを上回り,テキスト注釈タスクにおけるchatgptへのアプローチ
- Authors: Meysam Alizadeh, Ma\"el Kubli, Zeynab Samei, Shirin Dehghani, Juan
Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi
- Abstract要約: オープンソースのLarge Language Models(LLMs)とChatGPTのような独自のモデルと、MTurkのような人間ベースのサービスを比較します。
以上の結果から,ChatGPTはほとんどのタスクにおいて最高の性能を発揮するが,オープンソースのLLMはMTurkより優れているだけでなく,特定のタスクにおいてChatGPTと競合する可能性も示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines the performance of open-source Large Language Models
(LLMs) in text annotation tasks and compares it with proprietary models like
ChatGPT and human-based services such as MTurk. While prior research
demonstrated the high performance of ChatGPT across numerous NLP tasks,
open-source LLMs like HugginChat and FLAN are gaining attention for their
cost-effectiveness, transparency, reproducibility, and superior data
protection. We assess these models using both zero-shot and few-shot approaches
and different temperature parameters across a range of text annotation tasks.
Our findings show that while ChatGPT achieves the best performance in most
tasks, open-source LLMs not only outperform MTurk but also demonstrate
competitive potential against ChatGPT in specific tasks.
- Abstract(参考訳): 本研究では,テキストアノテーションタスクにおけるオープンソースのLarge Language Models(LLMs)の性能について検討し,ChatGPTやMTurkのような人間ベースのサービスと比較する。
以前の研究では、多くのNLPタスクにわたるChatGPTのパフォーマンスが実証されていたが、HugginChatやFLANといったオープンソースのLLMは、コスト効率、透明性、再現性、優れたデータ保護に注目されている。
ゼロショットと少数ショットの両方のアプローチと,テキストアノテーションタスクの異なる温度パラメータを用いて,これらのモデルを評価する。
以上の結果から,ChatGPTはMTurkより優れているだけでなく,特定のタスクにおいてChatGPTと競合する可能性を示した。
関連論文リスト
- ChatGPT's One-year Anniversary: Are Open-Source Large Language Models
Catching up? [71.12709925152784]
ChatGPTは、AIのランドスケープ全体において、地震的な変化をもたらした。
モデルは人間の質問に答え、幅広いタスクのパネルで指示に従うことができることを示した。
クローズドソースのLLMは一般的にオープンソースよりも優れていますが、後者の進歩は急速に進んでいます。
これは研究だけでなく、ビジネスにも重要な意味を持つ。
論文 参考訳(メタデータ) (2023-11-28T17:44:51Z) - Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文 参考訳(メタデータ) (2023-11-09T22:28:14Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。
ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
論文 参考訳(メタデータ) (2023-03-27T09:59:48Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。