論文の概要: Beware of Words: Evaluating the Lexical Richness of Conversational Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.15518v1
- Date: Sun, 11 Feb 2024 13:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:16:44.273432
- Title: Beware of Words: Evaluating the Lexical Richness of Conversational Large
Language Models
- Title(参考訳): 単語の注意:対話型大言語モデルの語彙豊かさの評価
- Authors: Gonzalo Mart\'inez, Jos\'e Alberto Hern\'andez, Javier Conde, Pedro
Reviriego and Elena Merino
- Abstract要約: 対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
- 参考スコア(独自算出の注目度): 3.0059120458540383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of conversational Large Language Models (LLMs) in general,
and of ChatGPT in particular, is currently being evaluated on many different
tasks, from logical reasoning or maths to answering questions on a myriad of
topics. Instead, much less attention is being devoted to the study of the
linguistic features of the texts generated by these LLMs. This is surprising
since LLMs are models for language, and understanding how they use the language
is important. Indeed, conversational LLMs are poised to have a significant
impact on the evolution of languages as they may eventually dominate the
creation of new text. This means that for example, if conversational LLMs do
not use a word it may become less and less frequent and eventually stop being
used altogether. Therefore, evaluating the linguistic features of the text they
produce and how those depend on the model parameters is the first step toward
understanding the potential impact of conversational LLMs on the evolution of
languages. In this paper, we consider the evaluation of the lexical richness of
the text generated by LLMs and how it depends on the model parameters. A
methodology is presented and used to conduct a comprehensive evaluation of
lexical richness using ChatGPT as a case study. The results show how lexical
richness depends on the version of ChatGPT and some of its parameters, such as
the presence penalty, or on the role assigned to the model. The dataset and
tools used in our analysis are released under open licenses with the goal of
drawing the much-needed attention to the evaluation of the linguistic features
of LLM-generated text.
- Abstract(参考訳): 対話型大規模言語モデル(LLM)の一般的な性能、特にChatGPTの性能は、現在、論理的推論や数学から、無数のトピックに関する質問に答えるまで、様々なタスクで評価されている。
その代わりに、これらのLLMによって生成されたテキストの言語的特徴の研究に、はるかに注意が向けられている。
LLMは言語のモデルであるため、言語の使用方法を理解することが重要です。
実際、会話型llmは新しいテキストの作成を支配する可能性があるため、言語の進化に大きな影響を与える可能性がある。
これは例えば、会話型LLMが単語を使わないと、頻度が減り、最終的に完全に使われなくなることを意味する。
したがって、それらが生成するテキストの言語的特徴とモデルパラメータにどのように依存するかを評価することは、言語の発展に対する会話型LLMの潜在的影響を理解するための第一歩である。
本稿では,LLMが生成するテキストの語彙的富度の評価と,それがモデルパラメータに依存するかを検討する。
ChatGPTをケーススタディとして,語彙豊か度を包括的に評価するための方法論を提示し,使用した。
その結果、語彙豊かさはchatgptのバージョンと、そのパラメータ、例えば存在ペナルティやモデルに割り当てられた役割にどの程度依存しているかが示されている。
LLM生成テキストの言語的特徴の評価に特に注意を払うことを目的として,分析に使用されるデータセットとツールをオープンライセンスで公開する。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - An Investigation of LLMs' Inefficacy in Understanding Converse Relations [30.94718664430869]
本稿では,知識グラフ補完データセットから抽出した17の関係と1240のトリプルを含む,逆関係に着目した新しいベンチマークであるConvReを紹介する。
我々のConvREは2つのタスク、Re2TextとText2Reを備えており、LLMが関連テキストと関連するテキストのマッチングを判定する能力を評価するために、多選択質問応答として定式化されている。
論文 参考訳(メタデータ) (2023-10-08T13:45:05Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。