論文の概要: Masader: Metadata Sourcing for Arabic Text and Speech Data Resources
- arxiv url: http://arxiv.org/abs/2110.06744v1
- Date: Wed, 13 Oct 2021 14:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 19:12:35.342419
- Title: Masader: Metadata Sourcing for Arabic Text and Speech Data Resources
- Title(参考訳): Masader: アラビア文字と音声データリソースのためのメタデータソーシング
- Authors: Zaid Alyafeai, Maraim Masoud, Mustafa Ghaleb and Maged S. Al-shaibani
- Abstract要約: textitMasaderはアラビア語のNLPデータセットの公開カタログとしては最大である。
我々は、他の言語にも拡張可能なメタデータアノテーション戦略を開発した。
- 参考スコア(独自算出の注目度): 3.345437353879255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The NLP pipeline has evolved dramatically in the last few years. The first
step in the pipeline is to find suitable annotated datasets to evaluate the
tasks we are trying to solve. Unfortunately, most of the published datasets
lack metadata annotations that describe their attributes. Not to mention, the
absence of a public catalogue that indexes all the publicly available datasets
related to specific regions or languages. When we consider low-resource
dialectical languages, for example, this issue becomes more prominent. In this
paper we create \textit{Masader}, the largest public catalogue for Arabic NLP
datasets, which consists of 200 datasets annotated with 25 attributes.
Furthermore, We develop a metadata annotation strategy that could be extended
to other languages. We also make remarks and highlight some issues about the
current status of Arabic NLP datasets and suggest recommendations to address
them.
- Abstract(参考訳): NLPパイプラインはここ数年で劇的に進化した。
パイプラインの最初のステップは、解決しようとしているタスクを評価するのに適切な注釈付きデータセットを見つけることです。
残念ながら、公開されたデータセットのほとんどは、属性を記述するメタデータアノテーションを欠いている。
言うまでもなく、特定のリージョンや言語に関連するすべての公開データセットをインデックスする公開カタログが存在しない。
例えば、低リソースの方言言語を考えると、この問題はより顕著になる。
本稿では,25の属性で注釈付けされた200のデータセットからなるアラビアNLPデータセットの公開カタログとして,最大である \textit{Masader} を作成する。
さらに,他の言語にも拡張可能なメタデータアノテーション戦略を開発した。
また、アラビア語のNLPデータセットの現状に関するいくつかの問題を取り上げ、対処するための推奨事項を提示する。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす
本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。
そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:29:55Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-04-28T19:14:21Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。