論文の概要: The continued usefulness of vocabulary tests for evaluating large
language models
- arxiv url: http://arxiv.org/abs/2310.14703v1
- Date: Mon, 23 Oct 2023 08:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 21:30:09.595077
- Title: The continued usefulness of vocabulary tests for evaluating large
language models
- Title(参考訳): 語彙テストの大規模言語モデル評価における継続的有用性
- Authors: Gonzalo Mart\'inez, Javier Conde, Elena Merino-G\'omez, Beatriz
Berm\'udez-Margaretto, Jos\'e Alberto Hern\'andez, Pedro Reviriego, Marc
Brysbaert
- Abstract要約: 本稿では,Landauer と Dumain's Test of English as a Foreign Language (TOEFL) が現代主要言語モデルにおいて有益であることを示す。
さらに、既存の単語と非単語の区別を必要とするYes/Noテストでモデルをテストした。
モデルは、現在の主要言語モデルが存在しない情報を提供するという他の観察結果と一致して、非単語の項目で著しく悪化した。
- 参考スコア(独自算出の注目度): 2.7013338932521416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In their seminal article on semantic vectors, Landauer and Dumain (1997)
proposed testing the quality of AI language models with a challenging
vocabulary test. We show that their Test of English as a Foreign Language
(TOEFL) test remains informative for contemporary major language models, since
none of the models was perfect and made errors on divergent items. The TOEFL
test consists of target words with four alternatives to choose from. We further
tested the models on a Yes/No test that requires distinguishing between
existing words and made-up nonwords. The models performed significantly worse
on the nonword items, in line with other observations that current major
language models provide non-existent information. The situation was worse when
we generalized the tests to Spanish. Here, most models gave
meanings/translations for the majority of random letter sequences. On the plus
side, the best models began to perform quite well, and they also pointed to
nonwords that were unknown to the test participants but can be found in
dictionaries.
- Abstract(参考訳): 意味ベクトルに関する論文の中で、Landauer と Dumain (1997) はAI言語モデルの品質を挑戦的な語彙テストでテストすることを提案した。
いずれのモデルも完全ではなく, 相違点に誤りが生じたため, 現代の主要言語モデルでは, テスト・オブ・イングリッシュ・アズ・ア・外国語(TOEFL)テストが有益であることを示す。
TOEFLテストは、ターゲット語から選択する4つの代替語からなる。
さらに、既存の単語と非単語の区別を必要とするYes/Noテストでモデルをテストした。
モデルは、現在の主要言語モデルが存在しない情報を提供するという他の観察結果と一致して、非単語の項目で著しく悪化した。
テストがスペイン語に一般化されたとき、状況は悪化した。
ここでは、ほとんどのモデルはランダムな文字列の大多数に意味/翻訳を与えた。
プラスの面では、最高のモデルは非常にうまく機能し始めており、また、テスト参加者に未知だが辞書で見られる非単語も指している。
関連論文リスト
- Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs [13.558778781305998]
大規模言語モデル (LLM) は主に英語を基本言語として設計されている。
多言語である少数の人々でさえ、強い英語中心の偏見を示す傾向がある。
本稿では,多言語出力の語彙的および構文的自然性を評価するための新しい自動コーパスレベル指標を提案する。
論文 参考訳(メタデータ) (2024-10-21T12:34:17Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - A Primer on Pretrained Multilingual Language Models [18.943173499882885]
MLLM(Multilingual Language Models)は、多数の言語に事前学習の能力をもたらすための実行可能な選択肢として登場した。
本報告では,MLLMに関する研究分野について概説する。
論文 参考訳(メタデータ) (2021-07-01T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。