Fugu-MT 論文翻訳(概要): Beware of Words: Evaluating the Lexical Richness of Conversational Large Language Models

論文の概要: Beware of Words: Evaluating the Lexical Richness of Conversational Large Language Models

arxiv url: http://arxiv.org/abs/2402.15518v1
Date: Sun, 11 Feb 2024 13:41:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:16:44.273432
Title: Beware of Words: Evaluating the Lexical Richness of Conversational Large Language Models
Title（参考訳）: 単語の注意:対話型大言語モデルの語彙豊かさの評価
Authors: Gonzalo Mart\'inez, Jos\'e Alberto Hern\'andez, Javier Conde, Pedro Reviriego and Elena Merino
Abstract要約: 対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
参考スコア（独自算出の注目度）: 3.0059120458540383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The performance of conversational Large Language Models (LLMs) in general, and of ChatGPT in particular, is currently being evaluated on many different tasks, from logical reasoning or maths to answering questions on a myriad of topics. Instead, much less attention is being devoted to the study of the linguistic features of the texts generated by these LLMs. This is surprising since LLMs are models for language, and understanding how they use the language is important. Indeed, conversational LLMs are poised to have a significant impact on the evolution of languages as they may eventually dominate the creation of new text. This means that for example, if conversational LLMs do not use a word it may become less and less frequent and eventually stop being used altogether. Therefore, evaluating the linguistic features of the text they produce and how those depend on the model parameters is the first step toward understanding the potential impact of conversational LLMs on the evolution of languages. In this paper, we consider the evaluation of the lexical richness of the text generated by LLMs and how it depends on the model parameters. A methodology is presented and used to conduct a comprehensive evaluation of lexical richness using ChatGPT as a case study. The results show how lexical richness depends on the version of ChatGPT and some of its parameters, such as the presence penalty, or on the role assigned to the model. The dataset and tools used in our analysis are released under open licenses with the goal of drawing the much-needed attention to the evaluation of the linguistic features of LLM-generated text.
Abstract（参考訳）: 対話型大規模言語モデル(LLM)の一般的な性能、特にChatGPTの性能は、現在、論理的推論や数学から、無数のトピックに関する質問に答えるまで、様々なタスクで評価されている。その代わりに、これらのLLMによって生成されたテキストの言語的特徴の研究に、はるかに注意が向けられている。 LLMは言語のモデルであるため、言語の使用方法を理解することが重要です。実際、会話型llmは新しいテキストの作成を支配する可能性があるため、言語の進化に大きな影響を与える可能性がある。これは例えば、会話型LLMが単語を使わないと、頻度が減り、最終的に完全に使われなくなることを意味する。したがって、それらが生成するテキストの言語的特徴とモデルパラメータにどのように依存するかを評価することは、言語の発展に対する会話型LLMの潜在的影響を理解するための第一歩である。本稿では,LLMが生成するテキストの語彙的富度の評価と,それがモデルパラメータに依存するかを検討する。 ChatGPTをケーススタディとして,語彙豊か度を包括的に評価するための方法論を提示し,使用した。その結果、語彙豊かさはchatgptのバージョンと、そのパラメータ、例えば存在ペナルティやモデルに割り当てられた役割にどの程度依存しているかが示されている。 LLM生成テキストの言語的特徴の評価に特に注意を払うことを目的として,分析に使用されるデータセットとツールをオープンライセンスで公開する。

関連論文リスト

LingGym: How Far Are LLMs from Thinking Like Field Linguists? [20.482844306874743]
本稿ではLingGymについて紹介する。LingGymはメタ言語推論のためのLLMの能力を評価する新しいベンチマークである。制御された評価タスク:Word-Gloss Inferenceでは、モデルが文脈から欠落した単語と光沢を推測しなければならない。その結果,構造化言語的手がかりを取り入れることで,全てのモデルにおける推論性能が一貫した改善が得られた。
論文参考訳（メタデータ） (2025-11-01T00:59:13Z)
CLEAR: A Comprehensive Linguistic Evaluation of Argument Rewriting by Large Language Models [2.872898284494118]
我々は、議論的テキストとその改善、Argument Improvement(ArgImp)というタスクに焦点を当てる。本稿では4つの言語レベルにマッピングされた57のメトリクスからなる評価パイプラインであるCLEARについて述べる。これらのモデルでは,文章の短縮と平均語長の増大,文章の融合によりArgImpが実現されている。
論文参考訳（メタデータ） (2025-09-18T14:53:41Z)
Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。 LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-06T05:15:34Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
A Statistical Analysis of LLMs' Self-Evaluation Using Proverbs [1.9073729452914245]
本稿では,300対の確率対からなる新規な確率データベースについて紹介する。そこで本研究では,テキストのコンバージェンスと,類似の証明における数値コンバージェンスを評価するテストを提案する。
論文参考訳（メタデータ） (2024-10-22T02:38:48Z)
PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文参考訳（メタデータ） (2024-04-03T04:53:14Z)
Open Conversational LLMs do not know most Spanish words [2.737783055857426]
我々は,オープンソースチャットLLMがスペイン語の単語に対して持つ知識を,参照辞書における単語のサンプルをテストすることによって評価する。その結果、オープンソースのチャットLLMは、単語の重要部分に対して誤った意味を生じさせ、文脈で文章を書くためにほとんどの単語を正しく利用できないことがわかった。
論文参考訳（メタデータ） (2024-03-21T15:41:02Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文参考訳（メタデータ） (2023-11-15T15:12:15Z)
Evaluation of large language models using an Indian language LGBTI+ lexicon [3.2047868962340327]
大規模言語モデル(LLM)は通常、MMLUのようなタスクベースのベンチマークに基づいて評価される。本稿では,インド語におけるLGBTI+レキシコンを用いたLCMの評価手法を提案する。
論文参考訳（メタデータ） (2023-10-26T21:32:24Z)
Establishing Vocabulary Tests as a Benchmark for Evaluating Large Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。 2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文参考訳（メタデータ） (2023-10-23T08:45:12Z)
An Investigation of LLMs' Inefficacy in Understanding Converse Relations [30.94718664430869]
本稿では,知識グラフ補完データセットから抽出した17の関係と1240のトリプルを含む,逆関係に着目した新しいベンチマークであるConvReを紹介する。我々のConvREは2つのタスク、Re2TextとText2Reを備えており、LLMが関連テキストと関連するテキストのマッチングを判定する能力を評価するために、多選択質問応答として定式化されている。
論文参考訳（メタデータ） (2023-10-08T13:45:05Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。