論文の概要: Contextual Text Embeddings for Twi
- arxiv url: http://arxiv.org/abs/2103.15963v2
- Date: Wed, 31 Mar 2021 07:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 12:01:42.822756
- Title: Contextual Text Embeddings for Twi
- Title(参考訳): Twiのためのコンテキストテキスト埋め込み
- Authors: Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi,
Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel
Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante
Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin
Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo,
Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel,
Anokye Acheampong Amponsah, James Ben Hayfron-Acquah
- Abstract要約: 本稿では,最も広く話されているガーナ語であるTwiやAkanのトランスフォーマーベース言語モデルを紹介する。
この研究の具体的な貢献は、TwiのAkuapemおよびAsante方言のためのいくつかの事前訓練されたトランスフォーマー言語モデルの開発である。
具体的には、Akan corporaのセットを微調整したAkanのBERTモデルと、AkanナレッジのみをスクラッチからトレーニングしたBAKOのBERTの4つの異なるフレーバーを紹介します。
- 参考スコア(独自算出の注目度): 0.0061423327574940114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based language models have been changing the modern Natural
Language Processing (NLP) landscape for high-resource languages such as
English, Chinese, Russian, etc. However, this technology does not yet exist for
any Ghanaian language. In this paper, we introduce the first of such models for
Twi or Akan, the most widely spoken Ghanaian language. The specific
contribution of this research work is the development of several pretrained
transformer language models for the Akuapem and Asante dialects of Twi, paving
the way for advances in application areas such as Named Entity Recognition
(NER), Neural Machine Translation (NMT), Sentiment Analysis (SA) and
Part-of-Speech (POS) tagging. Specifically, we introduce four different
flavours of ABENA -- A BERT model Now in Akan that is fine-tuned on a set of
Akan corpora, and BAKO - BERT with Akan Knowledge only, which is trained from
scratch. We open-source the model through the Hugging Face model hub and
demonstrate its use via a simple sentiment classification example.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、英語、中国語、ロシア語などの高ソース言語に対する現代の自然言語処理(NLP)の状況を変えつつある。
しかし、この技術はガーナ語ではまだ存在していない。
本稿では、最も広く話されているガーナ語であるtwiまたはakanの最初のモデルを紹介する。
この研究の具体的な貢献は、Twiのアクアペム方言とアサンテ方言のための事前訓練されたトランスフォーマー言語モデルの開発であり、名前付きエンティティ認識(NER)、ニューラル機械翻訳(NMT)、感性分析(SA)、部分音声タグ付け(POS)といった応用分野における進歩の道を開くものである。
具体的には、Akan corporaのセットを微調整したAkanのBERTモデルと、AkanナレッジのみをスクラッチからトレーニングしたBAKO-BERTの4つの異なる風味を紹介する。
我々はHugging Faceモデルハブを通じてモデルをオープンソース化し、単純な感情分類の例を通してその使用を実証する。
関連論文リスト
- Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Testing pre-trained Transformer models for Lithuanian news clustering [0.0]
英語以外の言語は、英語の事前訓練されたモデルでそのような新しい機会を活用できなかった。
我々は、リトアニア語ニュースクラスタリングのタスクの符号化として、事前訓練された多言語BERT、XLM-R、および古い学習テキスト表現法を比較した。
この結果から, 単語ベクトルを超えるように微調整できるが, 特別な訓練を施した doc2vec 埋め込みよりもはるかに低いスコアが得られた。
論文 参考訳(メタデータ) (2020-04-03T14:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。