論文の概要: MuLVE, A Multi-Language Vocabulary Evaluation Data Set
- arxiv url: http://arxiv.org/abs/2201.06286v1
- Date: Mon, 17 Jan 2022 09:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 05:03:49.302070
- Title: MuLVE, A Multi-Language Vocabulary Evaluation Data Set
- Title(参考訳): MuLVE - 多言語語彙評価データセット
- Authors: Anik Jacobsen, Salar Mohtaj, Sebastian M\"oller
- Abstract要約: 本研究は,語彙カードと実生活ユーザ回答からなるデータセットであるMuLVE(Multi-Language Vocabulary Evaluation Data Set)を導入する。
データセットにはドイツ語、英語、スペイン語、フランス語の語彙に関する質問がターゲット言語として含まれている。
提案したMulVEデータセットを用いて語彙評価の下流タスクにおいて,事前学習したBERT言語モデルを微調整する実験を行った。
- 参考スコア(独自算出の注目度): 2.9005223064604078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vocabulary learning is vital to foreign language learning. Correct and
adequate feedback is essential to successful and satisfying vocabulary
training. However, many vocabulary and language evaluation systems perform on
simple rules and do not account for real-life user learning data. This work
introduces Multi-Language Vocabulary Evaluation Data Set (MuLVE), a data set
consisting of vocabulary cards and real-life user answers, labeled indicating
whether the user answer is correct or incorrect. The data source is user
learning data from the Phase6 vocabulary trainer. The data set contains
vocabulary questions in German and English, Spanish, and French as target
language and is available in four different variations regarding pre-processing
and deduplication. We experiment to fine-tune pre-trained BERT language models
on the downstream task of vocabulary evaluation with the proposed MuLVE data
set. The results provide outstanding results of > 95.5 accuracy and F2-score.
The data set is available on the European Language Grid.
- Abstract(参考訳): 外国語学習には語彙学習が不可欠である。
正しい適切なフィードバックは、語彙訓練の成功と満足に不可欠である。
しかし、多くの語彙や言語評価システムは単純なルールで実行されており、実際のユーザ学習データを考慮していない。
マルチランゲージ語彙評価データセット(MuLVE)は、語彙カードと実際のユーザ回答からなるデータセットであり、ユーザ回答が正しいかどうかを示すラベルが付けられている。
データソースは、フェーズ6語彙トレーナーからのユーザ学習データである。
データセットには、ドイツ語と英語、スペイン語、フランス語の語彙問題が含まれており、前処理と重複解消に関する4つの異なるバリエーションがある。
提案したMulVEデータセットを用いて語彙評価の下流タスクにおいて,事前学習したBERT言語モデルを微調整する実験を行った。
その結果、95.5 以上の精度と f2-score が得られた。
データセットはEuropean Language Gridで公開されている。
関連論文リスト
- Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - Are BabyLMs Second Language Learners? [48.85680614529188]
本稿では,BabyLM Challengeの2024年版に対する言語的動機づけのアプローチについて述べる。
第1言語学習(L1)パラダイムを追求するのではなく,第2言語(L2)学習の観点から,課題にアプローチする。
論文 参考訳(メタデータ) (2024-10-28T17:52:15Z) - Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - XFEVER: Exploring Fact Verification across Languages [40.1637899493061]
本稿では,異なる言語間で事実検証モデルをベンチマークするために設計された言語間ファクト抽出と検証データセットを提案する。
我々は、Fact extract and VERificationデータセットのクレームとエビデンステキストを6言語に翻訳して構築した。
トレーニングセットと開発セットは機械翻訳を使用して翻訳され、テストセットはプロの翻訳者によって翻訳されたテキストと機械翻訳されたテキストを含む。
論文 参考訳(メタデータ) (2023-10-25T01:20:17Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Pedagogical Word Recommendation: A novel task and dataset on
personalized vocabulary acquisition for L2 learners [4.507860128918788]
Pedagogical Word Recommendation と呼ばれる新しいタスクのためのデータの提案と公開を行う。
PWRの主な目的は、学習者が既に見てきた他の単語に基づいて、ある学習者が与えられた単語を知っているかどうかを予測することである。
このITSの特徴として、学生は、自分たちが解決した質問から知らない単語を直接表示して、ワードブックを作成することができる。
論文 参考訳(メタデータ) (2021-12-27T17:52:48Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。