論文の概要: Language ID in the Wild: Unexpected Challenges on the Path to a
Thousand-Language Web Text Corpus
- arxiv url: http://arxiv.org/abs/2010.14571v2
- Date: Thu, 29 Oct 2020 15:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:14:04.932173
- Title: Language ID in the Wild: Unexpected Challenges on the Path to a
Thousand-Language Web Text Corpus
- Title(参考訳): 野生の言語id:1000言語webテキストコーパスへの予期せぬ挑戦
- Authors: Isaac Caswell, Theresa Breiner, Daan van Esch, Ankur Bapna
- Abstract要約: 我々は最大1,629の言語でLangIDモデルをトレーニングします。
これらのモデルを用いて作成したウェブクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度であることがわかった。
本稿では,ワードリストに基づく可変精度フィルタとトランスフォーマーに基づく半教師付きラングIDモデルという2種類の手法を提案する。
- 参考スコア(独自算出の注目度): 15.807197703827818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large text corpora are increasingly important for a wide variety of Natural
Language Processing (NLP) tasks, and automatic language identification (LangID)
is a core technology needed to collect such datasets in a multilingual context.
LangID is largely treated as solved in the literature, with models reported
that achieve over 90% average F1 on as many as 1,366 languages. We train LangID
models on up to 1,629 languages with comparable quality on held-out test sets,
but find that human-judged LangID accuracy for web-crawl text corpora created
using these models is only around 5% for many lower-resource languages,
suggesting a need for more robust evaluation. Further analysis revealed a
variety of error modes, arising from domain mismatch, class imbalance, language
similarity, and insufficiently expressive models. We propose two classes of
techniques to mitigate these errors: wordlist-based tunable-precision filters
(for which we release curated lists in about 500 languages) and
transformer-based semi-supervised LangID models, which increase median dataset
precision from 5.5% to 71.2%. These techniques enable us to create an initial
data set covering 100K or more relatively clean sentences in each of 500+
languages, paving the way towards a 1,000-language web text corpus.
- Abstract(参考訳): 大きなテキストコーパスは、様々な自然言語処理(nlp)タスクにとってますます重要であり、自動言語識別(langid)は、これらのデータセットを多言語コンテキストで収集するために必要なコア技術である。
LangIDは主に文献で解決されたように扱われており、1,366言語で90%以上の平均F1を達成すると報告されている。
テストセットに匹敵する品質の1,629言語でLangIDモデルをトレーニングするが、これらのモデルを用いて作成したWebクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度に過ぎず、より堅牢な評価の必要性が示唆されている。
さらなる分析により、ドメインミスマッチ、クラス不均衡、言語の類似性、不十分な表現モデルから生じる様々なエラーモードが明らかになった。
ワードリストに基づくチューナブル精度フィルタ(約500言語でキュレートされたリストを出力する)とトランスフォーマーベースの半教師付きラングIDモデルにより、中央値のデータセット精度を5.5%から71.2%に向上させる。
これらの技術により、500以上の言語で100K以上の比較的クリーンな文をカバーする初期データセットを作成でき、1000言語以上のWebテキストコーパスへの道を歩むことができる。
関連論文リスト
- A New Method for Cross-Lingual-based Semantic Role Labeling [5.992526851963307]
英語とペルシア語のセマンティック・ロール・ラベリングを訓練するためのディープラーニングアルゴリズムが提案されている。
その結果,Niksirt et al.のモデルと比較すると,有意な改善が認められた。
セマンティックロールラベリングのための言語間メソッドの開発は、約束を守る。
論文 参考訳(メタデータ) (2024-08-28T16:06:12Z) - GlossLM: A Massively Multilingual Corpus and Pretrained Model for Interlinear Glossed Text [39.846419973203744]
我々は、1.8k言語にまたがる450万以上のサンプルを網羅し、様々なソースからIGT(Interlinear glossed Text)データをコンパイルする。
私たちは、多くのデータを標準化して、言語間でのラベルの標準セットに従います。
多くの言語が十分な単言語データを持っていないため、私たちはコーパス上で大きな多言語モデルを事前訓練します。
モノリンガルコーパスを微調整し,SOTAモデルを最大6.6%向上させることにより,本モデルの有用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T03:21:15Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - LIMIT: Language Identification, Misidentification, and Translation using
Hierarchical Models in 350+ Languages [27.675441924635294]
現在のシステムは世界の7000の言語の大部分を正確に識別することはできない。
まず、350以上の言語で50Kの多言語・並列児童話のコーパスMCS-350をコンパイルする。
言語識別のための新しい誤予測分解階層モデル LIMIt を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:15:43Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。