論文の概要: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
- arxiv url: http://arxiv.org/abs/2401.03175v1
- Date: Sat, 6 Jan 2024 09:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:58:47.861127
- Title: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
- Title(参考訳): 深層学習アプローチを用いたボド語のための音声タガー
- Authors: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
- Abstract要約: 最初に、Bodo言語のための言語モデルであるBodoBERTを提示する。
次に,Bodo 用の DL ベースの POS タグ付けモデルを提案する。
ベストパフォーマンスモデルはF1スコア0.8041に達する。
- 参考スコア(独自算出の注目度): 2.168848255038874
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language Processing systems such as Part-of-speech tagging, Named entity
recognition, Machine translation, Speech recognition, and Language modeling
(LM) are well-studied in high-resource languages. Nevertheless, research on
these systems for several low-resource languages, including Bodo, Mizo,
Nagamese, and others, is either yet to commence or is in its nascent stages.
Language model plays a vital role in the downstream tasks of modern NLP.
Extensive studies are carried out on LMs for high-resource languages.
Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack
coverage. In this study, we first present BodoBERT, a language model for the
Bodo language. To the best of our knowledge, this work is the first such effort
to develop a language model for Bodo. Secondly, we present an ensemble DL-based
POS tagging model for Bodo. The POS tagging model is based on combinations of
BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We
cover several language models in the experiment to see how well they work in
POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A
comparative experiment was also conducted on Assamese POS taggers, considering
that the language is spoken in the same region as Bodo.
- Abstract(参考訳): 音声タグ付け、名前付きエンティティ認識、機械翻訳、音声認識、言語モデリング(LM)などの言語処理システムは、高リソース言語でよく研究されている。
それでも、ボド語、ミゾ語、ナガメメ語などの低リソース言語に対するこれらの研究は、まだ開始されていないか、初期段階にある。
言語モデルは、現代のNLPの下流タスクにおいて重要な役割を果たす。
lmsによる高資源言語の研究が盛んに行われている。
それでも、Bodo、Rabha、Misingといった言語はカバー範囲を欠いている。
本研究ではまず,ボド語の言語モデルであるBodoBERTについて述べる。
私たちの知る限りでは、この取り組みはBodoの言語モデルを開発する最初の試みである。
次に,Bodo のための DL ベースの POS タグ付けモデルを提案する。
POSタグ付けモデルは、BiLSTMとCRFの組み合わせと、BadoBERTとBytePairEmbeddingsの積み重ねた埋め込みに基づいている。
実験でいくつかの言語モデルを取り上げ、POSタグタスクでいかにうまく機能するかを確認します。
ベストパフォーマンスモデルはF1スコア0.8041に達する。
Assamese POS タグガーで比較実験を行い、ボド語と同じ地域で言語が話されていることを考察した。
関連論文リスト
- SPRING Lab IITM's submission to Low Resource Indic Language Translation Shared Task [10.268444449457956]
我々は,Khasi,Mizo,Manipuri,Assameseの4つの低リソースIndic言語に対して,ロバストな翻訳モデルを構築した。
このアプローチには、データ収集と前処理からトレーニングと評価まで、包括的なパイプラインが含まれています。
バイリンガルデータの不足に対処するために,ミゾとカシのモノリンガルデータセットの逆翻訳手法を用いる。
論文 参考訳(メタデータ) (2024-11-01T16:39:03Z) - CebuaNER: A New Baseline Cebuano Named Entity Recognition Model [1.5056924758531152]
本稿ではCebuaNERについて紹介する。CebuaNERはCebuano言語における名前付きエンティティ認識のための新しいベースラインモデルである。
モデルを構築するために、4000以上のニュース記事を収集し、注釈を付けました。
その結果,新しいベースラインモデルとして有望な結果が得られ,すべてのエンティティタグに対して70%以上の精度,リコール,F1が達成された。
論文 参考訳(メタデータ) (2023-10-01T14:09:42Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - ML-SUPERB: Multilingual Speech Universal PERformance Benchmark [73.65853301350042]
音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。
本稿では,言語認識と言語識別の両方を考慮した多言語SUPERBを提案する。
SUPERBベンチマークと同様、音声SSLモデルはFBANKよりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-05-18T00:01:27Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - AsPOS: Assamese Part of Speech Tagger using Deep Learning Approach [7.252817150901275]
音声(POS)タグ付けは自然言語処理(NLP)に不可欠である
本稿では,AssameseのためのDeep Learning (DL)ベースのPOSタグを提示する。
F1スコアのタグ付け精度は86.52%に達した。
論文 参考訳(メタデータ) (2022-12-14T05:36:18Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Training Multilingual Pre-trained Language Model with Byte-level
Subwords [41.52056437015399]
BBPE(Byte-Level BPE)を用いた多言語事前学習言語モデルの訓練実践について述べる。
この実験では、NEZHAのアーキテクチャを基礎となるプリトレーニング言語モデルとして採用し、NEZHAがバイトレベルのサブワードを一貫して訓練していることを示した。
我々は,バイトレベルの語彙構築ツールと多言語事前学習言語モデルのソースコードをリリースする。
論文 参考訳(メタデータ) (2021-01-23T10:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。