論文の概要: Revisiting CNN for Highly Inflected Bengali and Hindi Language Modeling
- arxiv url: http://arxiv.org/abs/2110.13032v1
- Date: Mon, 25 Oct 2021 15:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 17:10:35.038370
- Title: Revisiting CNN for Highly Inflected Bengali and Hindi Language Modeling
- Title(参考訳): 高次ベンガル語とヒンディー語モデリングのためのCNNの再検討
- Authors: Chowdhury Rafeed Rahman, MD. Hasibur Rahman, Mohammad Rafsan, Samiha
Zakir, Mohammed Eunus Ali, Rafsanjani Muhammod
- Abstract要約: そこで本研究では,CNNアーキテクチャと名づけられた,エンド・ツー・エンドのトレーニング可能なメモリ効率の高いCNNアーキテクチャを提案する。
特に、単語と文レベルで学習可能な2つの畳み込みサブモデルを導入する。
我々は、事前訓練されたBERTを含む最先端(SOTA)トランスフォーマーモデルが、必ずしもベンガルとヒンディーにとって最高の性能をもたらすとは限らないことを示す。
- 参考スコア(独自算出の注目度): 0.5382679710017696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though there has been a large body of recent works in language modeling (LM)
for high resource languages such as English and Chinese, the area is still
unexplored for low resource languages like Bengali and Hindi. We propose an end
to end trainable memory efficient CNN architecture named CoCNN to handle
specific characteristics such as high inflection, morphological richness,
flexible word order and phonetical spelling errors of Bengali and Hindi. In
particular, we introduce two learnable convolutional sub-models at word and at
sentence level that are end to end trainable. We show that state-of-the-art
(SOTA) Transformer models including pretrained BERT do not necessarily yield
the best performance for Bengali and Hindi. CoCNN outperforms pretrained BERT
with 16X less parameters, and it achieves much better performance than SOTA
LSTM models on multiple real-world datasets. This is the first study on the
effectiveness of different architectures drawn from three deep learning
paradigms - Convolution, Recurrent, and Transformer neural nets for modeling
two widely used languages, Bengali and Hindi.
- Abstract(参考訳): 近年、英語や中国語などの高資源言語のための言語モデリング(lm)が盛んに行われているが、ベンガル語やヒンディー語のような低資源言語については未調査のままである。
ベンガル語とヒンディー語の単語順応性や音韻的綴り誤りなど,特定の特徴を扱うために,エンドツーエンドの学習可能なメモリ効率の高いcnnアーキテクチャcocnnを提案する。
特に,単語と文レベルで学習可能な畳み込みサブモデル2つを導入する。
事前訓練されたbertを含む最先端(sota)トランスフォーマーモデルがベンガルやヒンディー語に最適な性能をもたらすとは限らない。
CoCNNは、トレーニング済みのBERTを16倍のパラメータで上回り、複数の実世界のデータセット上のSOTA LSTMモデルよりもはるかに優れたパフォーマンスを実現している。
これは、ベンガル語とヒンディー語の2つの広く使われている言語をモデル化するための畳み込み、リカレント、トランスフォーマーニューラルネットという3つのディープラーニングパラダイムから引き出された異なるアーキテクチャの有効性に関する最初の研究である。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Indic-Transformers: An Analysis of Transformer Language Models for
Indian Languages [0.8155575318208631]
Transformerアーキテクチャに基づく言語モデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。
しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ、報告される。
一方、インドの言語はそのようなベンチマークでは表現されていない。
論文 参考訳(メタデータ) (2020-11-04T14:43:43Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - A Continuous Space Neural Language Model for Bengali Language [0.4799822253865053]
本稿では, 連続空間ニューラル言語モデル, より具体的にはASGD重量減少型LSTM言語モデル, およびベンガル語で効率的に学習する手法を提案する。
提案したアーキテクチャは、ベンガルの保持されたデータセットにおいて、推論の難易度を51.2まで低くすることで、それよりも優れている。
論文 参考訳(メタデータ) (2020-01-11T14:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。