論文の概要: The continued usefulness of vocabulary tests for evaluating large
language models
- arxiv url: http://arxiv.org/abs/2310.14703v1
- Date: Mon, 23 Oct 2023 08:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 21:30:09.595077
- Title: The continued usefulness of vocabulary tests for evaluating large
language models
- Title(参考訳): 語彙テストの大規模言語モデル評価における継続的有用性
- Authors: Gonzalo Mart\'inez, Javier Conde, Elena Merino-G\'omez, Beatriz
Berm\'udez-Margaretto, Jos\'e Alberto Hern\'andez, Pedro Reviriego, Marc
Brysbaert
- Abstract要約: 本稿では,Landauer と Dumain's Test of English as a Foreign Language (TOEFL) が現代主要言語モデルにおいて有益であることを示す。
さらに、既存の単語と非単語の区別を必要とするYes/Noテストでモデルをテストした。
モデルは、現在の主要言語モデルが存在しない情報を提供するという他の観察結果と一致して、非単語の項目で著しく悪化した。
- 参考スコア(独自算出の注目度): 2.7013338932521416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In their seminal article on semantic vectors, Landauer and Dumain (1997)
proposed testing the quality of AI language models with a challenging
vocabulary test. We show that their Test of English as a Foreign Language
(TOEFL) test remains informative for contemporary major language models, since
none of the models was perfect and made errors on divergent items. The TOEFL
test consists of target words with four alternatives to choose from. We further
tested the models on a Yes/No test that requires distinguishing between
existing words and made-up nonwords. The models performed significantly worse
on the nonword items, in line with other observations that current major
language models provide non-existent information. The situation was worse when
we generalized the tests to Spanish. Here, most models gave
meanings/translations for the majority of random letter sequences. On the plus
side, the best models began to perform quite well, and they also pointed to
nonwords that were unknown to the test participants but can be found in
dictionaries.
- Abstract(参考訳): 意味ベクトルに関する論文の中で、Landauer と Dumain (1997) はAI言語モデルの品質を挑戦的な語彙テストでテストすることを提案した。
いずれのモデルも完全ではなく, 相違点に誤りが生じたため, 現代の主要言語モデルでは, テスト・オブ・イングリッシュ・アズ・ア・外国語(TOEFL)テストが有益であることを示す。
TOEFLテストは、ターゲット語から選択する4つの代替語からなる。
さらに、既存の単語と非単語の区別を必要とするYes/Noテストでモデルをテストした。
モデルは、現在の主要言語モデルが存在しない情報を提供するという他の観察結果と一致して、非単語の項目で著しく悪化した。
テストがスペイン語に一般化されたとき、状況は悪化した。
ここでは、ほとんどのモデルはランダムな文字列の大多数に意味/翻訳を与えた。
プラスの面では、最高のモデルは非常にうまく機能し始めており、また、テスト参加者に未知だが辞書で見られる非単語も指している。
関連論文リスト
- Open Source Conversational LLMs do not know most Spanish words [2.737783055857426]
我々は,オープンソースチャットLLMがスペイン語の単語に対して持つ知識を,参照辞書における単語のサンプルをテストすることによって評価する。
その結果、オープンソースのチャットLLMは、単語の重要部分に対して誤った意味を生じさせ、文脈で文章を書くためにほとんどの単語を正しく利用できないことがわかった。
論文 参考訳(メタデータ) (2024-03-21T15:41:02Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Beware of Words: Evaluating the Lexical Richness of Conversational Large
Language Models [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - A Primer on Pretrained Multilingual Language Models [18.943173499882885]
MLLM(Multilingual Language Models)は、多数の言語に事前学習の能力をもたらすための実行可能な選択肢として登場した。
本報告では,MLLMに関する研究分野について概説する。
論文 参考訳(メタデータ) (2021-07-01T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。