論文の概要: Development of POS tagger for English-Bengali Code-Mixed data
- arxiv url: http://arxiv.org/abs/2007.14576v1
- Date: Wed, 29 Jul 2020 03:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:19:58.819747
- Title: Development of POS tagger for English-Bengali Code-Mixed data
- Title(参考訳): 英語・ベンガル語混合データのためのPOSタグの開発
- Authors: Tathagata Raha, Sainik Kumar Mahata, Dipankar Das, Sivaji
Bandyopadhyay
- Abstract要約: 我々は,英語とベンガル語の単語がローマ文字で書かれるような,英語とベンガル語の混成データをPOSタグでタグ付けできるシステムを構築した。
私たちのシステムは、手動でPOSタグ付きコード混合文100個を用いてチェックされ、75.29%の精度で返却された。
- 参考スコア(独自算出の注目度): 14.298803822659934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-mixed texts are widespread nowadays due to the advent of social media.
Since these texts combine two languages to formulate a sentence, it gives rise
to various research problems related to Natural Language Processing. In this
paper, we try to excavate one such problem, namely, Parts of Speech tagging of
code-mixed texts. We have built a system that can POS tag English-Bengali
code-mixed data where the Bengali words were written in Roman script. Our
approach initially involves the collection and cleaning of English-Bengali
code-mixed tweets. These tweets were used as a development dataset for building
our system. The proposed system is a modular approach that starts by tagging
individual tokens with their respective languages and then passes them to
different POS taggers, designed for different languages (English and Bengali,
in our case). Tags given by the two systems are later joined together and the
final result is then mapped to a universal POS tag set. Our system was checked
using 100 manually POS tagged code-mixed sentences and it returned an accuracy
of 75.29%
- Abstract(参考訳): コードミキシングテキストは、ソーシャルメディアの出現により近年広く普及している。
これらのテキストは2つの言語を組み合わせて文を定式化するので、自然言語処理に関する様々な研究問題が発生する。
本稿では,コードミキシングテキストの音声タグ付け部分という,そのような問題の1つを探索する。
ベンガル語の単語がローマ字で書かれた英語とベンガル語の混成データをタグ付けするシステムを構築した。
当社のアプローチは、まずは英語とベンガル語の混成ツイートの収集とクリーニングです。
これらのツイートは、システム構築のための開発データセットとして使用されました。
提案されたシステムはモジュール化されたアプローチで、まず個々のトークンをそれぞれの言語にタグ付けし、その後異なる言語(私たちの場合は英語とベンガル語)向けに設計されたposタグに渡す。
2つのシステムによって与えられたタグは後に結合され、最終結果はユニバーサルposタグセットにマッピングされる。
100個のPOSタグ付きコード混在文を用いて, 精度75.29%を返却した。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Marathi-English Code-mixed Text Generation [0.0]
コードミキシング(Code-mixing)とは、異なる言語から意味のある文を作るための言語要素のブレンドである。
本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。
論文 参考訳(メタデータ) (2023-09-28T06:51:26Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - BITS Pilani at HinglishEval: Quality Evaluation for Code-Mixed Hinglish
Text Using Transformers [1.181206257787103]
本稿では,システムによって生成されたコードミクシングテキストデータの品質に影響を及ぼす要因を明らかにすることを目的とする。
HinglishEvalタスクでは,多言語BERTを用いて合成文と人文の類似性を求める。
論文 参考訳(メタデータ) (2022-06-17T10:36:50Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - HinGE: A Dataset for Generation and Evaluation of Code-Mixed Hinglish
Text [1.6675267471157407]
我々は、広く普及しているHinglish(ヒンディー語と英語のコードミキシング)のためのコーパス(HinGE)を提示する。
HinGEには、人間が生成するヒングリッシュ文と、平行なヒンディー語文に対応する2つのルールベースのアルゴリズムがある。
さらに,コード混合データ上で広く利用されている評価指標の有効性を実証した。
論文 参考訳(メタデータ) (2021-07-08T11:11:37Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - NITS-Hinglish-SentiMix at SemEval-2020 Task 9: Sentiment Analysis For
Code-Mixed Social Media Text Using an Ensemble Model [1.1265248232450553]
本研究では,コードミキシングされたHinglishテキストの感情分析を活発に完了するシステムNITS-Hinglish-SentiMixを提案する。
提案したフレームワークはテストデータに対して0.617のFスコアを記録している。
論文 参考訳(メタデータ) (2020-07-23T15:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。