論文の概要: LIMIT: Language Identification, Misidentification, and Translation using
Hierarchical Models in 350+ Languages
- arxiv url: http://arxiv.org/abs/2305.14263v1
- Date: Tue, 23 May 2023 17:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:13:58.123311
- Title: LIMIT: Language Identification, Misidentification, and Translation using
Hierarchical Models in 350+ Languages
- Title(参考訳): 制限:350以上の言語における階層モデルを用いた言語識別・誤認・翻訳
- Authors: Milind Agarwal, Md Mahfuz Ibn Alam, Antonios Anastasopoulos
- Abstract要約: 入力テキスト/オーディオの言語を知ることは、タグ付け、計算、翻訳システムなど、ほぼすべての自然言語処理(NLP)ツールを使用するための第一歩である。
世界の7000の言語のほとんどは、現在のシステムではサポートされていない。
350以上の言語と方言で50K以上の並列児童話のコーパスをコンパイルすることで、データのボトルネックに取り組むための一歩を踏み出した。
- 参考スコア(独自算出の注目度): 33.81174252426459
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowing the language of an input text/audio is a necessary first step for
using almost every natural language processing (NLP) tool such as taggers,
parsers, or translation systems. Language identification is a well-studied
problem, sometimes even considered solved; in reality, most of the world's 7000
languages are not supported by current systems. This lack of representation
affects large-scale data mining efforts and further exacerbates data shortage
for low-resource languages. We take a step towards tackling the data bottleneck
by compiling a corpus of over 50K parallel children's stories in 350+ languages
and dialects, and the computation bottleneck by building lightweight
hierarchical models for language identification. Our data can serve as
benchmark data for language identification of short texts and for understudied
translation directions such as those between Indian or African languages. Our
proposed method, Hierarchical LIMIT, uses limited computation to expand
coverage into excluded languages while maintaining prediction quality.
- Abstract(参考訳): 入力テキスト/オーディオの言語を知ることは、タグ付け、パーサー、翻訳システムなど、ほぼすべての自然言語処理(NLP)ツールを使用するための第一歩である。
言語識別はよく研究されている問題であり、時には解決されると考えられ、実際には世界の7000言語のほとんどは現在のシステムではサポートされていない。
この表現の欠如は大規模なデータマイニングに影響を与え、低リソース言語のデータ不足をさらに悪化させる。
350以上の言語と方言に50万以上の並列した子どもの物語のコーパスをコンパイルし,言語識別のための軽量な階層モデルを構築することで,データのボトルネックに取り組むための一歩を踏み出した。
私たちのデータは、短いテキストの言語識別や、インド語やアフリカ語などの未熟な翻訳指示のためのベンチマークデータとして機能します。
提案手法であるHierarchical LIMITは,予測品質を保ちながら,限られた計算量を用いて対象言語に範囲を広げる。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Learning Natural Language Generation from Scratch [25.984828046001013]
本稿では,TRUncated ReinForcement Learning for Language (TrufLL)を紹介する。
強化学習(RL)のみを用いて、条件付き言語モデルをゼロから訓練する独自のap-proachである。
論文 参考訳(メタデータ) (2021-09-20T08:46:51Z) - Language ID in the Wild: Unexpected Challenges on the Path to a
Thousand-Language Web Text Corpus [15.807197703827818]
我々は最大1,629の言語でLangIDモデルをトレーニングします。
これらのモデルを用いて作成したウェブクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度であることがわかった。
本稿では,ワードリストに基づく可変精度フィルタとトランスフォーマーに基づく半教師付きラングIDモデルという2種類の手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:29:17Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。