論文の概要: Open-Source Large Language Models Outperform Crowd Workers and Approach
ChatGPT in Text-Annotation Tasks
- arxiv url: http://arxiv.org/abs/2307.02179v1
- Date: Wed, 5 Jul 2023 10:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:15:22.154408
- Title: Open-Source Large Language Models Outperform Crowd Workers and Approach
ChatGPT in Text-Annotation Tasks
- Title(参考訳): オープンソースの大規模言語モデルがクラウドワーカーを上回り,テキスト注釈タスクにおけるchatgptへのアプローチ
- Authors: Meysam Alizadeh, Ma\"el Kubli, Zeynab Samei, Shirin Dehghani, Juan
Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi
- Abstract要約: オープンソースのLarge Language Models(LLMs)とChatGPTのような独自のモデルと、MTurkのような人間ベースのサービスを比較します。
以上の結果から,ChatGPTはほとんどのタスクにおいて最高の性能を発揮するが,オープンソースのLLMはMTurkより優れているだけでなく,特定のタスクにおいてChatGPTと競合する可能性も示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines the performance of open-source Large Language Models
(LLMs) in text annotation tasks and compares it with proprietary models like
ChatGPT and human-based services such as MTurk. While prior research
demonstrated the high performance of ChatGPT across numerous NLP tasks,
open-source LLMs like HugginChat and FLAN are gaining attention for their
cost-effectiveness, transparency, reproducibility, and superior data
protection. We assess these models using both zero-shot and few-shot approaches
and different temperature parameters across a range of text annotation tasks.
Our findings show that while ChatGPT achieves the best performance in most
tasks, open-source LLMs not only outperform MTurk but also demonstrate
competitive potential against ChatGPT in specific tasks.
- Abstract(参考訳): 本研究では,テキストアノテーションタスクにおけるオープンソースのLarge Language Models(LLMs)の性能について検討し,ChatGPTやMTurkのような人間ベースのサービスと比較する。
以前の研究では、多くのNLPタスクにわたるChatGPTのパフォーマンスが実証されていたが、HugginChatやFLANといったオープンソースのLLMは、コスト効率、透明性、再現性、優れたデータ保護に注目されている。
ゼロショットと少数ショットの両方のアプローチと,テキストアノテーションタスクの異なる温度パラメータを用いて,これらのモデルを評価する。
以上の結果から,ChatGPTはMTurkより優れているだけでなく,特定のタスクにおいてChatGPTと競合する可能性を示した。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Benchmarking LLMs in Political Content Text-Annotation: Proof-of-Concept with Toxicity and Incivility Data [0.0]
この記事では,OpenAI の GPT と,多数のオープンソース LLM の政治コンテンツに対するアノテーションタスクの実行能力をベンチマークした。
我々は300万人以上のデジタルインタラクションからなる新しい抗議イベントデータセットを使用した。
われわれは、人間のコーダーがソーシャルメディアの毒性と悪質について注釈を付けた、地味なラベルを含む金の標準を作った。
論文 参考訳(メタデータ) (2024-09-15T14:11:24Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。