論文の概要: Indic-Transformers: An Analysis of Transformer Language Models for
Indian Languages
- arxiv url: http://arxiv.org/abs/2011.02323v1
- Date: Wed, 4 Nov 2020 14:43:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:20:12.298598
- Title: Indic-Transformers: An Analysis of Transformer Language Models for
Indian Languages
- Title(参考訳): Indic-Transformers:インドの言語におけるトランスフォーマー言語モデルの解析
- Authors: Kushal Jain, Adwait Deshpande, Kumar Shridhar, Felix Laumann, Ayushman
Dash
- Abstract要約: Transformerアーキテクチャに基づく言語モデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。
しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ、報告される。
一方、インドの言語はそのようなベンチマークでは表現されていない。
- 参考スコア(独自算出の注目度): 0.8155575318208631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models based on the Transformer architecture have achieved
state-of-the-art performance on a wide range of NLP tasks such as text
classification, question-answering, and token classification. However, this
performance is usually tested and reported on high-resource languages, like
English, French, Spanish, and German. Indian languages, on the other hand, are
underrepresented in such benchmarks. Despite some Indian languages being
included in training multilingual Transformer models, they have not been the
primary focus of such work. In order to evaluate the performance on Indian
languages specifically, we analyze these language models through extensive
experiments on multiple downstream tasks in Hindi, Bengali, and Telugu
language. Here, we compare the efficacy of fine-tuning model parameters of
pre-trained models against that of training a language model from scratch.
Moreover, we empirically argue against the strict dependency between the
dataset size and model performance, but rather encourage task-specific model
and method selection. We achieve state-of-the-art performance on Hindi and
Bengali languages for text classification task. Finally, we present effective
strategies for handling the modeling of Indian languages and we release our
model checkpoints for the community :
https://huggingface.co/neuralspace-reverie.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく言語モデルは,テキスト分類や質問処理,トークン分類など,幅広いnlpタスクにおいて最先端のパフォーマンスを達成している。
しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ報告される。
一方、インドの言語はそのようなベンチマークでは表現されていない。
インドの言語の中には、多言語トランスフォーマーモデルのトレーニングに含まれているものもあるが、そのような研究の中心にはなっていない。
インドの言語の性能を特に評価するために,ヒンディー語,ベンガル語,テルグ語の複数の下流タスクを広範囲に実験し,これらの言語モデルを分析した。
本稿では,事前学習したモデルの微調整モデルパラメータの有効性を,ゼロから言語モデルを訓練する方法と比較する。
さらに,データセットサイズとモデル性能の厳密な依存性を実証的に論じる一方で,タスク固有のモデルとメソッドの選択を奨励する。
テキスト分類タスクにおいて,ヒンディー語とベンガル語の最先端性能を実現する。
最後に、インド言語のモデリングを扱うための効果的な戦略を示し、コミュニティ向けのモデルチェックポイント(https://huggingface.co/neuralspace-reverie)をリリースします。
関連論文リスト
- Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。
このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文 参考訳(メタデータ) (2021-10-15T03:22:30Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - HinFlair: pre-trained contextual string embeddings for pos tagging and
text classification in the Hindi language [0.0]
HinFlairは、巨大な単言語Hindiコーパスで事前訓練された言語表現モデル(コンテキスト文字列埋め込み)である。
結果は、HinFlairが、テキスト分類やposタグ付けといった下流タスクのために、既存の最先端の公開トレーニング済みの埋め込みよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T09:23:35Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。