Fugu-MT 論文翻訳(概要): YORC: Yoruba Reading Comprehension dataset

論文の概要: YORC: Yoruba Reading Comprehension dataset

arxiv url: http://arxiv.org/abs/2308.09768v1
Date: Fri, 18 Aug 2023 18:46:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 19:58:22.481016
Title: YORC: Yoruba Reading Comprehension dataset
Title（参考訳）: YORC:Yoruba Reading Comprehension データセット
Authors: Anuoluwapo Aremu, Jesujoba O. Alabi, David Ifeoluwa Adelani
Abstract要約: YORC: Yoruba Reading データセットを新たに作成しました。既存の英語 RACE データセットを用いて言語間移動を行う。また, GPT-4 のような大規模言語モデル (LLM) も提案する。
参考スコア（独自算出の注目度）: 10.549882322176357
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we create YORC: a new multi-choice Yoruba Reading Comprehension dataset that is based on Yoruba high-school reading comprehension examination. We provide baseline results by performing cross-lingual transfer using existing English RACE dataset based on a pre-trained encoder-only model. Additionally, we provide results by prompting large language models (LLMs) like GPT-4.
Abstract（参考訳）: 本稿では, ヨルバ高校読書理解試験に基づく, ヨルバ読解理解データセット YORC を作成する。事前学習されたエンコーダのみモデルに基づいて,既存の英語レースデータセットを用いて言語間転送を行うことにより,基本結果を提供する。さらに, GPT-4 のような大規模言語モデル (LLM) も提案する。

関連論文リスト

Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。低リソースのアフリカ言語にLLMを適用する方法について検討する。アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文参考訳（メタデータ） (2025-04-09T02:25:53Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
XNLIeu: a dataset for cross-lingual NLI in Basque [14.788692648660797]
本稿では、XNLIを拡張して、トランスファーラーニングのアプローチを大いに活用できる低リソース言語であるBasqueを含める。新しいデータセットはXNLIeuと呼ばれ、最初は英語のXNLIコーパスをバスクに機械翻訳し、続いて手動で編集後のステップで開発された。
論文参考訳（メタデータ） (2024-04-10T13:19:56Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Constructing Multilingual Code Search Dataset Using Neural Machine Translation [48.32329232202801]
我々は4つの自然言語および4つのプログラミング言語で多言語コード検索データセットを作成する。その結果,すべての自然言語およびプログラミング言語データで事前学習したモデルが,ほとんどのケースで最善を尽くしていることがわかった。
論文参考訳（メタデータ） (2023-06-27T16:42:36Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。データセットは1言語あたり約30,000の注釈付きツイートで構成されている。私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文参考訳（メタデータ） (2022-01-20T16:28:06Z)
Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-06-07T09:53:02Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)
KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for Kinyarwanda and Kirundi [18.01565807026177]
我々はKinyarwandaとKirndiという低リソースのアフリカの2つの言語でニュース記事の分類のための2つのニュースデータセットを紹介した。統計情報、事前処理のガイドライン、単言語および言語間ベースラインモデルを提供する。実験の結果, 比較的高出力のKinyarwandaへの埋め込みを訓練することで, キルンディへの言語間移動が成功することがわかった。
論文参考訳（メタデータ） (2020-10-23T05:37:42Z)
Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文参考訳（メタデータ） (2020-09-16T11:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。