論文の概要: "A Passage to India": Pre-trained Word Embeddings for Indian Languages
- arxiv url: http://arxiv.org/abs/2112.13800v1
- Date: Mon, 27 Dec 2021 17:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:44:20.656981
- Title: "A Passage to India": Pre-trained Word Embeddings for Indian Languages
- Title(参考訳): 『インドへの旅』:インド語への事前教育語埋め込み
- Authors: Kumar Saurav, Kumar Saunack, Diptesh Kanojia, Pushpak Bhattacharyya
- Abstract要約: 既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
- 参考スコア(独自算出の注目度): 30.607474624873014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense word vectors or 'word embeddings' which encode semantic properties of
words, have now become integral to NLP tasks like Machine Translation (MT),
Question Answering (QA), Word Sense Disambiguation (WSD), and Information
Retrieval (IR). In this paper, we use various existing approaches to create
multiple word embeddings for 14 Indian languages. We place these embeddings for
all these languages, viz., Assamese, Bengali, Gujarati, Hindi, Kannada,
Konkani, Malayalam, Marathi, Nepali, Odiya, Punjabi, Sanskrit, Tamil, and
Telugu in a single repository. Relatively newer approaches that emphasize
catering to context (BERT, ELMo, etc.) have shown significant improvements, but
require a large amount of resources to generate usable models. We release
pre-trained embeddings generated using both contextual and non-contextual
approaches. We also use MUSE and XLM to train cross-lingual embeddings for all
pairs of the aforementioned languages. To show the efficacy of our embeddings,
we evaluate our embedding models on XPOS, UPOS and NER tasks for all these
languages. We release a total of 436 models using 8 different approaches. We
hope they are useful for the resource-constrained Indian language NLP. The
title of this paper refers to the famous novel 'A Passage to India' by E.M.
Forster, published initially in 1924.
- Abstract(参考訳): センセーショナルな単語ベクトルや単語の埋め込みは、機械翻訳(MT)、質問回答(QA)、単語センスの曖昧さ(WSD)、情報検索(IR)といったNLPタスクに不可欠なものになっている。
本稿では,14のインドの言語に複数の単語を埋め込む手法について述べる。
これらすべての言語に対して、viz., assamese, bengali, gujarati, hindi, kannada, konkani, malayalam, marathi, nepali, odiya, punjabi, sanskrit, tamil, teluguの埋め込みを単一のリポジトリに配置します。
比較的新しいアプローチでは、コンテキストへのキャタリング(BERT、ELMoなど)が大幅に改善されているが、使用可能なモデルを生成するには大量のリソースが必要である。
文脈的手法と非文脈的手法の両方を用いて事前学習した埋め込みを生成する。
また、MUSEとXLMを使って、上記の言語のすべてのペアに対して言語間埋め込みをトレーニングしています。
組込みの有効性を示すために、これらすべての言語に対するxpos、upos、nerタスクの組込みモデルを評価します。
8つの異なるアプローチで合計436モデルをリリースします。
資源制約のあるインド語NLPに役立てることを願っている。
本書の題名は1924年に出版されたE・M・フォースターの有名な小説「インドへの旅」にちなむ。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models,
and Library [1.14219428942199]
インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。
L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目標としている。
我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T17:51:00Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。