論文の概要: Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study
- arxiv url: http://arxiv.org/abs/2402.15518v2
- Date: Mon, 21 Oct 2024 14:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:47.739627
- Title: Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study
- Title(参考訳): 単語の認識:ChatGPTを用いた会話LLMの語彙的多様性の評価
- Authors: Gonzalo Martínez, José Alberto Hernández, Javier Conde, Pedro Reviriego, Elena Merino,
- Abstract要約: 対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
- 参考スコア(独自算出の注目度): 3.0059120458540383
- License:
- Abstract: The performance of conversational Large Language Models (LLMs) in general, and of ChatGPT in particular, is currently being evaluated on many different tasks, from logical reasoning or maths to answering questions on a myriad of topics. Instead, much less attention is being devoted to the study of the linguistic features of the texts generated by these LLMs. This is surprising since LLMs are models for language, and understanding how they use the language is important. Indeed, conversational LLMs are poised to have a significant impact on the evolution of languages as they may eventually dominate the creation of new text. This means that for example, if conversational LLMs do not use a word it may become less and less frequent and eventually stop being used altogether. Therefore, evaluating the linguistic features of the text they produce and how those depend on the model parameters is the first step toward understanding the potential impact of conversational LLMs on the evolution of languages. In this paper, we consider the evaluation of the lexical richness of the text generated by LLMs and how it depends on the model parameters. A methodology is presented and used to conduct a comprehensive evaluation of lexical richness using ChatGPT as a case study. The results show how lexical richness depends on the version of ChatGPT and some of its parameters, such as the presence penalty, or on the role assigned to the model. The dataset and tools used in our analysis are released under open licenses with the goal of drawing the much-needed attention to the evaluation of the linguistic features of LLM-generated text.
- Abstract(参考訳): 対話型大規模言語モデル(LLM)の一般的な性能、特にChatGPTの性能は、現在、論理的推論や数学から、無数のトピックに関する質問に答えるまで、様々なタスクで評価されている。
その代わりに、これらのLLMによって生成されたテキストの言語的特徴の研究に、はるかに注意が向けられている。
LLMは言語のモデルであり、言語の使用方法を理解することが重要であるため、これは驚くべきことです。
実際、会話型LLMは言語の発展に大きな影響を与え、最終的には新しいテキストの作成を支配している可能性がある。
これは例えば、会話型LLMが単語を使わない場合、頻度が減り、最終的に完全に使われるのをやめる可能性があることを意味している。
したがって、それらが生成するテキストの言語的特徴とモデルパラメータにどのように依存するかを評価することは、言語の発展に対する会話型LLMの潜在的影響を理解するための第一歩である。
本稿では,LLMが生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
ChatGPTをケーススタディとして,語彙の豊かさを包括的に評価するための方法論を提示し,使用した。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
LLM生成テキストの言語的特徴の評価に特に注意を払うことを目的として,分析に使用されるデータセットとツールをオープンライセンスで公開する。
関連論文リスト
- A Statistical Analysis of LLMs' Self-Evaluation Using Proverbs [1.9073729452914245]
本稿では,300対の確率対からなる新規な確率データベースについて紹介する。
そこで本研究では,テキストのコンバージェンスと,類似の証明における数値コンバージェンスを評価するテストを提案する。
論文 参考訳(メタデータ) (2024-10-22T02:38:48Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Open Conversational LLMs do not know most Spanish words [2.737783055857426]
我々は,オープンソースチャットLLMがスペイン語の単語に対して持つ知識を,参照辞書における単語のサンプルをテストすることによって評価する。
その結果、オープンソースのチャットLLMは、単語の重要部分に対して誤った意味を生じさせ、文脈で文章を書くためにほとんどの単語を正しく利用できないことがわかった。
論文 参考訳(メタデータ) (2024-03-21T15:41:02Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Evaluation of large language models using an Indian language LGBTI+
lexicon [3.2047868962340327]
大規模言語モデル(LLM)は通常、MMLUのようなタスクベースのベンチマークに基づいて評価される。
本稿では,インド語におけるLGBTI+レキシコンを用いたLCMの評価手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T21:32:24Z) - Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - An Investigation of LLMs' Inefficacy in Understanding Converse Relations [30.94718664430869]
本稿では,知識グラフ補完データセットから抽出した17の関係と1240のトリプルを含む,逆関係に着目した新しいベンチマークであるConvReを紹介する。
我々のConvREは2つのタスク、Re2TextとText2Reを備えており、LLMが関連テキストと関連するテキストのマッチングを判定する能力を評価するために、多選択質問応答として定式化されている。
論文 参考訳(メタデータ) (2023-10-08T13:45:05Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。