論文の概要: Towards a Broad Coverage Named Entity Resource: A Data-Efficient
Approach for Many Diverse Languages
- arxiv url: http://arxiv.org/abs/2201.12219v1
- Date: Fri, 28 Jan 2022 16:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:57:51.325494
- Title: Towards a Broad Coverage Named Entity Resource: A Data-Efficient
Approach for Many Diverse Languages
- Title(参考訳): エンティティリソースの広範囲化に向けて:多言語に対するデータ効率なアプローチ
- Authors: Silvia Severini, Ayyoob Imani, Philipp Dufter, Hinrich Sch\"utze
- Abstract要約: CLC-BNはMNEリソースを作成するための新しい手法であり,1000言語以上のコーパスであるParallel Bible Corpusに適用する。
我々は1340言語用のMNEリソースをリリースし、知識グラフ増強とバイリンガル語彙誘導という2つの下流タスクでその効果を実証する。
- 参考スコア(独自算出の注目度): 3.9112941863068316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel corpora are ideal for extracting a multilingual named entity (MNE)
resource, i.e., a dataset of names translated into multiple languages. Prior
work on extracting MNE datasets from parallel corpora required resources such
as large monolingual corpora or word aligners that are unavailable or perform
poorly for underresourced languages. We present CLC-BN, a new method for
creating an MNE resource, and apply it to the Parallel Bible Corpus, a corpus
of more than 1000 languages. CLC-BN learns a neural transliteration model from
parallel-corpus statistics, without requiring any other bilingual resources,
word aligners, or seed data. Experimental results show that CLC-BN clearly
outperforms prior work. We release an MNE resource for 1340 languages and
demonstrate its effectiveness in two downstream tasks: knowledge graph
augmentation and bilingual lexicon induction.
- Abstract(参考訳): 並列コーパスは、MNE(multilingual named entity)リソース、すなわち複数の言語に翻訳された名前のデータセットを抽出するのに理想的である。
並列コーパスからMNEデータセットを抽出する以前の作業では、大きなモノリンガルコーパスや単語調整器のようなリソースが必要だった。
我々は、mneリソースを作成する新しい手法であるclc-bnを提案し、1000以上の言語からなるコーパスである並列聖書コーパスに適用する。
CLC-BNは、他のバイリンガルリソース、単語調整器、シードデータを必要としない、並列コーパス統計から神経翻訳モデルを学ぶ。
実験の結果,CLC-BNは従来より明らかに優れていた。
我々は1340言語用のMNEリソースをリリースし、知識グラフ増強とバイリンガル語彙誘導という2つの下流タスクでその効果を示す。
関連論文リスト
- Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - MetaXLR -- Mixed Language Meta Representation Transformation for
Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。
我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文 参考訳(メタデータ) (2023-05-31T18:22:33Z) - Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource
Languages [1.8787713898828164]
本稿では,辞書の品質,学習データセットのサイズ,言語家族などの影響を詳細に分析する。
複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。
論文 参考訳(メタデータ) (2022-06-09T12:03:29Z) - Adapting High-resource NMT Models to Translate Low-resource Related
Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。
本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。
我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文 参考訳(メタデータ) (2021-05-31T16:01:18Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。