Fugu-MT 論文翻訳(概要): A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks

論文の概要: A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks

arxiv url: http://arxiv.org/abs/2405.10251v1
Date: Thu, 16 May 2024 16:56:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 13:33:15.810944
Title: A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks
Title（参考訳）: 自然言語生成タスクのための大規模言語モデルの体系的評価
Authors: Xuanfan Ni, Piji Li,
Abstract要約: 本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
参考スコア（独自算出の注目度）: 30.54635848057259
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent efforts have evaluated large language models (LLMs) in areas such as commonsense reasoning, mathematical reasoning, and code generation. However, to the best of our knowledge, no work has specifically investigated the performance of LLMs in natural language generation (NLG) tasks, a pivotal criterion for determining model excellence. Thus, this paper conducts a comprehensive evaluation of well-known and high-performing LLMs, namely ChatGPT, ChatGLM, T5-based models, LLaMA-based models, and Pythia-based models, in the context of NLG tasks. We select English and Chinese datasets encompassing Dialogue Generation and Text Summarization. Moreover, we propose a common evaluation setting that incorporates input templates and post-processing strategies. Our study reports both automatic results, accompanied by a detailed analysis.
Abstract（参考訳）: 最近の研究は、コモンセンス推論、数学的推論、コード生成といった分野における大きな言語モデル(LLM)を評価している。しかしながら、我々の知る限りでは、自然言語生成(NLG)タスクにおけるLLMの性能を特に調査する研究は行われていない。そこで本稿では,NLGタスクの文脈において,ChatGPT,ChatGLM,T5ベースモデル,LLaMAベースモデル,およびPythiaベースモデルなど,よく知られた高パフォーマンスLCMの包括的評価を行う。対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。さらに,入力テンプレートと後処理戦略を組み込んだ共通評価設定を提案する。本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。

関連論文リスト

NLD-LLM: A systematic framework for evaluating small language transformer models on natural language description [4.240884806677703]
自然言語記述(英: Natural Language Description、NLD)は、自然言語入力から構造化された意味のある出力を生成するモデルを必要とする自然言語処理(NLP)タスクである。 NLD-LLMは、言語モデルの性能を評価し、正確かつ簡潔なソースコード記述を生成するための体系的なNLPフレームワークである。
論文参考訳（メタデータ） (2025-10-01T19:03:20Z)
Multilingual Definition Modeling [1.9409995498330783]
私たちは4つの新言語(スペイン語、フランス語、ポルトガル語、ドイツ語)に単言語辞書データを使用します。このデータに微調整を施すと, 単文単語の定義モデル上で, 事前学習した多言語言語モデルの性能を検証した。結果から,多言語モデルでは英語のオンペア化が可能であるが,言語間相乗効果の可能性が示唆された。
論文参考訳（メタデータ） (2025-06-02T09:48:37Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。 Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。 Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2024-02-20T12:36:40Z)
Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets [2.8123257987021058]
タスク固有および生成データセットを統合することでLLaMA-2-Amharicモデルの強化に注力する。我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。微調整されたモデルは、異なるNLPタスクで有望な結果を示す。
論文参考訳（メタデータ） (2024-02-12T19:25:11Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文参考訳（メタデータ） (2023-11-15T15:12:15Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。 LLMのほとんどの研究は英語に限られている。これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文参考訳（メタデータ） (2023-03-22T13:03:10Z)
e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2021-05-08T18:46:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。