論文の概要: YORC: Yoruba Reading Comprehension dataset
- arxiv url: http://arxiv.org/abs/2308.09768v1
- Date: Fri, 18 Aug 2023 18:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:58:22.481016
- Title: YORC: Yoruba Reading Comprehension dataset
- Title(参考訳): YORC:Yoruba Reading Comprehension データセット
- Authors: Anuoluwapo Aremu, Jesujoba O. Alabi, David Ifeoluwa Adelani
- Abstract要約: YORC: Yoruba Reading データセットを新たに作成しました。
既存の英語 RACE データセットを用いて言語間移動を行う。
また, GPT-4 のような大規模言語モデル (LLM) も提案する。
- 参考スコア(独自算出の注目度): 10.549882322176357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we create YORC: a new multi-choice Yoruba Reading
Comprehension dataset that is based on Yoruba high-school reading comprehension
examination. We provide baseline results by performing cross-lingual transfer
using existing English RACE dataset based on a pre-trained encoder-only model.
Additionally, we provide results by prompting large language models (LLMs) like
GPT-4.
- Abstract(参考訳): 本稿では, ヨルバ高校読書理解試験に基づく, ヨルバ読解理解データセット YORC を作成する。
事前学習されたエンコーダのみモデルに基づいて,既存の英語レースデータセットを用いて言語間転送を行うことにより,基本結果を提供する。
さらに, GPT-4 のような大規模言語モデル (LLM) も提案する。
関連論文リスト
- XNLIeu: a dataset for cross-lingual NLI in Basque [14.788692648660797]
本稿では、XNLIを拡張して、トランスファーラーニングのアプローチを大いに活用できる低リソース言語であるBasqueを含める。
新しいデータセットはXNLIeuと呼ばれ、最初は英語のXNLIコーパスをバスクに機械翻訳し、続いて手動で編集後のステップで開発された。
論文 参考訳(メタデータ) (2024-04-10T13:19:56Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。