論文の概要: Word Level Language Identification in English Telugu Code Mixed Data
- arxiv url: http://arxiv.org/abs/2010.04482v1
- Date: Fri, 9 Oct 2020 10:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:22:15.330491
- Title: Word Level Language Identification in English Telugu Code Mixed Data
- Title(参考訳): 英語telugu符号混合データにおける単語レベル言語識別
- Authors: Sunil Gundapu, Radhika Mamidi
- Abstract要約: 現在、ICS(Intrasentential Code Switching)やCM(Code Mixing)が頻繁に見られる。
本稿では,Nav Bayes, Random Forest, Conditional Random Field (CRF), Hidden Markov Model (HMM) の3つのモデルについて述べる。
ベストパフォーマンスシステムは、f1スコア0.91のCRFベースです。
- 参考スコア(独自算出の注目度): 7.538482310185133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a multilingual or sociolingual configuration Intra-sentential Code
Switching (ICS) or Code Mixing (CM) is frequently observed nowadays. In the
world, most of the people know more than one language. CM usage is especially
apparent in social media platforms. Moreover, ICS is particularly significant
in the context of technology, health, and law where conveying the upcoming
developments are difficult in one's native language. In applications like
dialog systems, machine translation, semantic parsing, shallow parsing, etc. CM
and Code Switching pose serious challenges. To do any further advancement in
code-mixed data, the necessary step is Language Identification. In this paper,
we present a study of various models - Nave Bayes Classifier, Random Forest
Classifier, Conditional Random Field (CRF), and Hidden Markov Model (HMM) for
Language Identification in English - Telugu Code Mixed Data. Considering the
paucity of resources in code mixed languages, we proposed the CRF model and HMM
model for word level language identification. Our best performing system is
CRF-based with an f1-score of 0.91.
- Abstract(参考訳): 多言語または社会言語構成では、ICS(Intra-sentential Code Switching)やCM(Code Mixing)が頻繁に見られる。
世界では、ほとんどの人は複数の言語を知っています。
CMの利用は特にソーシャルメディアプラットフォームで顕著である。
さらに、ICSは技術、健康、法律の文脈において特に重要であり、今後の発展を伝えることは母国語では困難である。
ダイアログシステム、機械翻訳、意味解析、浅い解析などのアプリケーションで。
CMとコードスイッチングは深刻な課題である。
コード混合データのさらなる進歩のために、必要なステップは言語識別である。
本稿では,nave bayes分類器,ランダムフォレスト分類器,条件付き確率場(crf),hidden markovモデル(hmm)の言語識別モデルについて検討する。
コード混合言語における資源の可読性を考慮して,単語レベル言語識別のためのcrfモデルとhmmモデルを提案した。
ベストパフォーマンスシステムは、f1スコア0.91のCRFベースです。
関連論文リスト
- Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。
有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。
LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文 参考訳(メタデータ) (2024-04-30T08:51:49Z) - Marathi-English Code-mixed Text Generation [0.0]
コードミキシング(Code-mixing)とは、異なる言語から意味のある文を作るための言語要素のブレンドである。
本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。
論文 参考訳(メタデータ) (2023-09-28T06:51:26Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - PESTO: Switching Point based Dynamic and Relative Positional Encoding
for Code-Mixed Languages [1.7073542935233876]
CM言語に対する切替点に基づく位置符号化技術の適用に関する最初の観察結果を示す。
結果はSOTAよりわずかに優れているが、位置符号化はCMテキストに対する位置感受性言語モデルの訓練に有効な方法であることが明らかである。
論文 参考訳(メタデータ) (2021-11-12T08:18:21Z) - Challenges and Considerations with Code-Mixed NLP for Multilingual
Societies [1.6675267471157407]
本稿では,NLP研究の現状,限界,予測可能な落とし穴について論じる。
また,社会福祉のための多言語NLPアプリケーションにおける現在の研究を著しく進めることができる未来的データセット,モデル,ツールも提案する。
論文 参考訳(メタデータ) (2021-06-15T00:53:55Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。