論文の概要: Y-NQ: English-Yorùbá Evaluation dataset for Open-Book Reading Comprehension and Text Generation
- arxiv url: http://arxiv.org/abs/2412.08279v1
- Date: Wed, 11 Dec 2024 10:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:55.570377
- Title: Y-NQ: English-Yorùbá Evaluation dataset for Open-Book Reading Comprehension and Text Generation
- Title(参考訳): Y-NQ: オープンブック読解とテキスト生成のための英語ヨーバー評価データセット
- Authors: Marta R. Costa-jussà, Joy Chen, Ifeoluwanimi Adebara, Joe Chuang, Christophe Ropers, Eduardo Sánchez,
- Abstract要約: データセットには358の質問と338の英語文書と208のYorub'a文書が含まれている。
実験では、2つの言語間でのパフォーマンスが一貫した相違が見られる。
- 参考スコア(独自算出の注目度): 8.24983271589711
- License:
- Abstract: The purpose of this work is to share an English-Yor\`ub\'a evaluation dataset for open-book reading comprehension and text generation to assess the performance of models both in a high- and a low- resource language. The dataset contains 358 questions and answers on 338 English documents and 208 Yor\`ub\'a documents. The average document length is ~ 10k words for English and 430 words for Yor\`ub\'a. Experiments show a consistent disparity in performance between the two languages, with Yor\`ub\'a falling behind English for automatic metrics even if documents are much shorter for this language. For a small set of documents with comparable length, performance of Yor\`ub\'a drops by x2.5 times. When analyzing performance by length, we observe that Yor\`ub\'a decreases performance dramatically for documents that reach 1500 words while English performance is barely affected at that length. Our dataset opens the door to showcasing if English LLM reading comprehension capabilities extend to Yor\`ub\'a, which for the evaluated LLMs is not the case.
- Abstract(参考訳): 本研究の目的は、オープンブック読解とテキスト生成のための英語Yor\`ub\'a評価データセットを共有し、ハイリソース言語とローリソース言語の両方でモデルの性能を評価することである。
データセットには358の質問と338の英語文書と208のYor\`ub\'a文書が含まれている。
平均文書長は英語で約10k語、Yor\`ub\'aで430語である。
実験では、2つの言語間のパフォーマンスが一貫した相違が示され、Yor\`ub\'aは、たとえドキュメントがこの言語でずっと短いとしても、自動メトリクスのために英語に遅れている。
同等の長さのドキュメントの小さなセットの場合、Yor\`ub\'aのパフォーマンスはx2.5倍低下する。
本稿では,Yor\\ub\'aが1500語に達する文書のパフォーマンスを劇的に低下させるのに対して,英語のパフォーマンスはその長さにほとんど影響しないことを示す。
我々のデータセットは、英語のLLM読解能力がYor\`ub\'aにまで拡張された場合、LLMを提示する扉を開く。
関連論文リスト
- HERA: Improving Long Document Summarization using Large Language Models with Context Packaging and Reordering [6.876612430571396]
HERAと呼ばれる新しい要約生成フレームワークを提案する。
まず、その意味構造によって長い文書をセグメンテーションし、同じ事象に関するテキストセグメントを検索し、最後にそれらを並べ替えて入力コンテキストを形成する。
実験の結果,HERAはROUGE,BERTScore,忠実度測定において基礎モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-02-01T14:55:06Z) - AFRIDOC-MT: Document-level MT Corpus for African Languages [24.871863004002616]
AFRIDOC-MTは、英語と5つのアフリカ語をカバーする文書レベルのマルチ並列翻訳データセットである。
データセットは334の健康と271の情報技術に関するニュースドキュメントで構成されており、全て英語からこれらの言語に翻訳されている。
論文 参考訳(メタデータ) (2025-01-10T22:49:29Z) - HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。
HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。
また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文 参考訳(メタデータ) (2024-09-24T15:38:11Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。