論文の概要: Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.14703v2
- Date: Mon, 29 Jan 2024 09:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 21:35:16.336417
- Title: Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models
- Title(参考訳): 大規模言語モデル評価ベンチマークとしての語彙テストの確立
- Authors: Gonzalo Mart\'inez, Javier Conde, Elena Merino-G\'omez, Beatriz
Berm\'udez-Margaretto, Jos\'e Alberto Hern\'andez, Pedro Reviriego, Marc
Brysbaert
- Abstract要約: 我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
- 参考スコア(独自算出の注目度): 2.7013338932521416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vocabulary tests, once a cornerstone of language modeling evaluation, have
been largely overlooked in the current landscape of Large Language Models
(LLMs) like Llama, Mistral, and GPT. While most LLM evaluation benchmarks focus
on specific tasks or domain-specific knowledge, they often neglect the
fundamental linguistic aspects of language understanding and production. In
this paper, we advocate for the revival of vocabulary tests as a valuable tool
for assessing LLM performance. We evaluate seven LLMs using two vocabulary test
formats across two languages and uncover surprising gaps in their lexical
knowledge. These findings shed light on the intricacies of LLM word
representations, their learning mechanisms, and performance variations across
models and languages. Moreover, the ability to automatically generate and
perform vocabulary tests offers new opportunities to expand the approach and
provide a more complete picture of LLMs' language skills.
- Abstract(参考訳): かつては言語モデリング評価の基礎であった語彙テストは、Llama、Mistral、GPTといったLarge Language Models(LLM)の現在の状況において、ほとんど見過ごされてきた。
ほとんどのLCM評価ベンチマークは特定のタスクやドメイン固有の知識に焦点を当てているが、言語理解と生産の基本的な言語的側面を無視することが多い。
本稿では,LLMの性能評価のための貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
これらの知見は, LLM単語表現の複雑さ, 学習機構, モデルや言語間の性能変化に光を当てた。
さらに、語彙テストの自動生成と実行は、アプローチを拡張し、LLMの言語スキルのより完全な画像を提供する新たな機会を提供する。
関連論文リスト
- Can LLMs Help Create Grammar?: Automating Grammar Creation for Endangered Languages with In-Context Learning [0.0]
本稿では,Large Language Models (LLMs) が低リソース言語に対して限られたデータ量で文法情報を生成するのにどのように役立つかを検討する。
提案手法では,既存の言語データを整理し,形式的XLE文法を効率的に生成できるようにする。
本研究は,LLMが言語文書作成の取り組みを強化し,言語データの生成に費用対効果のあるソリューションを提供し,絶滅危惧言語の保存に寄与する可能性を明らかにする。
論文 参考訳(メタデータ) (2024-12-14T20:43:12Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Spoken Language Intelligence of Large Language Models for Language Learning [3.1964044595140217]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - A Primer on Pretrained Multilingual Language Models [18.943173499882885]
MLLM(Multilingual Language Models)は、多数の言語に事前学習の能力をもたらすための実行可能な選択肢として登場した。
本報告では,MLLMに関する研究分野について概説する。
論文 参考訳(メタデータ) (2021-07-01T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。