論文の概要: Mining Wikidata for Name Resources for African Languages
- arxiv url: http://arxiv.org/abs/2104.00558v1
- Date: Thu, 1 Apr 2021 15:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:56:27.407713
- Title: Mining Wikidata for Name Resources for African Languages
- Title(参考訳): アフリカ言語の名前資源のためのウィキデータマイニング
- Authors: Jonne S\"alev\"a and Constantine Lignos
- Abstract要約: 28のアフリカの言語で 約9千万の名前をリストしています
私たちは、データ、それを生成するために使用されるプロセス、およびその制限を説明し、公開するためにソフトウェアとデータを提供します。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work supports further development of language technology for the
languages of Africa by providing a Wikidata-derived resource of name lists
corresponding to common entity types (person, location, and organization).
While we are not the first to mine Wikidata for name lists, our approach
emphasizes scalability and replicability and addresses data quality issues for
languages that do not use Latin scripts. We produce lists containing
approximately 1.9 million names across 28 African languages. We describe the
data, the process used to produce it, and its limitations, and provide the
software and data for public use. Finally, we discuss the ethical
considerations of producing this resource and others of its kind.
- Abstract(参考訳): この研究は、共通のエンティティタイプ(個人、場所、組織)に対応するウィキデータ由来の名前リストのリソースを提供することで、アフリカの言語のための言語技術のさらなる発展を支援する。
Wikidataを名簿として最初に発掘したわけではないが、我々のアプローチはスケーラビリティと複製性を強調し、ラテン文字を使用しない言語におけるデータ品質の問題に対処する。
28のアフリカの言語で 約9千万の名前をリストしています
我々は、データ、それを生成するのに使われたプロセス、その制限を説明し、公開のためにソフトウェアとデータを提供する。
最後に,この資源を生産する上での倫理的考察と,その類型について論じる。
関連論文リスト
- ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata [8.38929536671882]
ParaNamesは400以上の言語にまたがる1億4000万の名前からなる、非常に多言語で並列な名前リソースである。
名前は1680万のエンティティに対して提供され、各エンティティは複雑な型階層から標準型(PER/LOC/ORG)にマッピングされる。
ParaNamesは、名前の翻訳/翻訳のタスクの定義と、名前付きエンティティ認識やリンクのようなタスクの補足データの両方において、多言語言語処理に有用である。
論文 参考訳(メタデータ) (2024-05-15T16:44:54Z) - Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - DaMuEL: A Large Multilingual Dataset for Entity Linking [2.8273701718153563]
DaMuELは、エンティティに関する言語に依存しない情報を含む知識ベースと、知識ベースにリンクされたエンティティの言及を持つウィキペディアテキストの2つのコンポーネントから構成される。
データセットには、知識ベースに279万個の名前付きエンティティと、Wikipediaのテキストから12.3Gトークンが含まれている。
論文 参考訳(メタデータ) (2023-06-15T17:15:52Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - ParaNames: A Massively Multilingual Entity Name Corpus [2.741266294612776]
ParaNamesは、約1400万のエンティティの名前からなる多言語並列名リソースである。
Wikidataをソースとして、私たちはこのタイプの最も大きなリソースを作成します。
論文 参考訳(メタデータ) (2022-02-28T18:58:06Z) - Toward More Meaningful Resources for Lower-resourced Languages [2.3513645401551333]
Wikidataに格納されているいくつかの低リソース言語の名前の内容について検討する。
WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントであるかどうかを評価する。
資源開発に関する推奨ガイドラインをまとめる。
論文 参考訳(メタデータ) (2022-02-24T18:39:57Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。