論文の概要: Large Language Models on Wikipedia-Style Survey Generation: an
Evaluation in NLP Concepts
- arxiv url: http://arxiv.org/abs/2308.10410v1
- Date: Mon, 21 Aug 2023 01:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 15:27:21.958733
- Title: Large Language Models on Wikipedia-Style Survey Generation: an
Evaluation in NLP Concepts
- Title(参考訳): ウィキペディアスタイルサーベイ生成における大規模言語モデル:NLP概念の評価
- Authors: Fan Gao, Hang Jiang, Moritz Blum, Jinghui Lu, Yuang Jiang, Irene Li
- Abstract要約: 大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクで大きな成功を収めている。
LLMは一般的なタスクでは優れているが、ドメイン固有のアプリケーションでの有効性はいまだ探究中である。
- 参考スコア(独自算出の注目度): 18.2616299634343
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) have achieved significant success across various
natural language processing (NLP) tasks, encompassing question-answering,
summarization, and machine translation, among others. While LLMs excel in
general tasks, their efficacy in domain-specific applications remains under
exploration. Additionally, LLM-generated text sometimes exhibits issues like
hallucination and disinformation. In this study, we assess LLMs' capability of
producing concise survey articles within the computer science-NLP domain,
focusing on 20 chosen topics. Automated evaluations indicate that GPT-4
outperforms GPT-3.5 when benchmarked against the ground truth. Furthermore,
four human evaluators provide insights from six perspectives across four model
configurations. Through case studies, we demonstrate that while GPT often
yields commendable results, there are instances of shortcomings, such as
incomplete information and the exhibition of lapses in factual accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答、要約、機械翻訳などを含む様々な自然言語処理(NLP)タスクで大きな成功を収めている。
LLMは一般的なタスクでは優れているが、ドメイン固有のアプリケーションでの有効性は検討中である。
加えて、LLM生成したテキストは幻覚や偽情報などの問題を示すこともある。
本研究では,コンピュータサイエンス-NLP領域におけるLLMの簡潔な調査項目作成能力について,20のトピックに焦点をあてて評価する。
自動評価は、GPT-4がGPT-3.5より優れていることを示している。
さらに、4人の人間評価者が4つのモデル構成の6つの視点から洞察を提供する。
ケーススタディを通して、gptはしばしば賞賛すべき結果をもたらすが、不完全な情報や事実の正確さの欠落の展示のような欠点の例があることを示す。
関連論文リスト
- An Empirical Analysis on Large Language Models in Debate Evaluation [10.677407097411768]
GPT-3.5 や GPT-4 のような先進大言語モデル (LLM) の機能と固有バイアスを議論評価の文脈で検討する。
GPT-3.5 と GPT-4 の両者に一貫した偏りがみられた。
また, GPT-3.5 および GPT-4 の語彙バイアスも明らかにした。
論文 参考訳(メタデータ) (2024-05-28T18:34:53Z) - Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages [0.0]
本研究は, GPT-4のタイトル/サブトラクションスクリーニング, フルテキストレビュー, およびデータ抽出能力について, ヒューマン・アウト・オブ・ザ・ループ(Human-out-of-the-loop)アプローチを用いて評価した。
GPT-4は、ほとんどのタスクにおいて人間のパフォーマンスと同等の精度を持っていたが、結果は偶然の合意とデータセットの不均衡によって歪められた。
信頼性の高いプロンプトを用いたフルテキスト文学のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
論文 参考訳(メタデータ) (2023-10-26T16:18:30Z) - Can large language models provide useful feedback on research papers? A
large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。
GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。
我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文 参考訳(メタデータ) (2023-10-03T04:14:17Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。