論文の概要: Leveraging Language Identification to Enhance Code-Mixed Text
Classification
- arxiv url: http://arxiv.org/abs/2306.04964v1
- Date: Thu, 8 Jun 2023 06:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:06:08.774722
- Title: Leveraging Language Identification to Enhance Code-Mixed Text
Classification
- Title(参考訳): コード混合テキスト分類における言語識別の活用
- Authors: Gauri Takawane, Abhishek Phaltankar, Varad Patwardhan, Aryan Patil,
Raviraj Joshi, Mukta S. Takalikar
- Abstract要約: 既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
- 参考スコア(独自算出の注目度): 0.7340017786387767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The usage of more than one language in the same text is referred to as Code
Mixed. It is evident that there is a growing degree of adaption of the use of
code-mixed data, especially English with a regional language, on social media
platforms. Existing deep-learning models do not take advantage of the implicit
language information in the code-mixed text. Our study aims to improve
BERT-based models performance on low-resource Code-Mixed Hindi-English Datasets
by experimenting with language augmentation approaches. We propose a pipeline
to improve code-mixed systems that comprise data preprocessing, word-level
language identification, language augmentation, and model training on
downstream tasks like sentiment analysis. For language augmentation in BERT
models, we explore word-level interleaving and post-sentence placement of
language information. We have examined the performance of vanilla BERT-based
models and their code-mixed HingBERT counterparts on respective benchmark
datasets, comparing their results with and without using word-level language
information. The models were evaluated using metrics such as accuracy,
precision, recall, and F1 score. Our findings show that the proposed language
augmentation approaches work well across different BERT models. We demonstrate
the importance of augmenting code-mixed text with language information on five
different code-mixed Hindi-English downstream datasets based on sentiment
analysis, hate speech detection, and emotion detection.
- Abstract(参考訳): 同じテキストにおける複数の言語の使用は、Code Mixedと呼ばれる。
ソーシャルメディアプラットフォーム上では、コードミックスデータ、特に地域言語による英語の使用の適応度が増大していることは明らかである。
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を利用しない。
本研究の目的は,低リソースのCode-Mixed Hindi-Englishデータセット上でのBERTモデルの性能向上である。
本研究では,データ前処理,単語レベルの言語識別,言語拡張,感情分析などの下流タスクにおけるモデルトレーニングなどを含む,コード混合システムを改善するパイプラインを提案する。
BERTモデルにおける言語拡張のために,言語情報の単語レベルのインターリーブと後文配置について検討する。
我々は,バニラBERTモデルとそのコード混合HingBERTモデルの性能を,各ベンチマークデータセット上で比較し,単語レベルの言語情報を用いずに比較した。
モデルは精度、精度、リコール、F1スコアなどの指標を用いて評価した。
その結果,提案する言語拡張アプローチは異なるbertモデルでうまく機能することがわかった。
我々は、感情分析、ヘイトスピーチ検出、感情検出に基づいて、5つの異なるコード混合ヒンディー語下流データセットの言語情報を用いたコード混合テキストの強化の重要性を示す。
関連論文リスト
- Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Language Agnostic Code-Mixing Data Augmentation by Predicting Linguistic
Patterns [0.5560631344057825]
本稿では,下流感情分析タスクにおけるベースラインよりも優れたSCMデータ拡張手法を提案する。
提案手法は,マトリックス言語における文の一部を一定のマスクで戦略的に置き換えることで,分類精度が著しく向上することを示す。
我々は低リソースと多言語の設定でデータ拡張手法をテストし、非常に少ない英・マラヤラムデータセットで7.73%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2022-11-14T18:50:16Z) - Language Identification of Hindi-English tweets using code-mixed BERT [0.0]
この研究は、ヒンディー語-英語-ウルドゥー語混成テキストのデータ収集を言語事前学習に利用し、ヒンディー語-英語混成テキストはその後の単語レベルの言語分類に利用している。
その結果、コードミックスデータ上で事前学習された表現は、モノリンガルデータによるより良い結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-07-02T17:51:36Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Sentiment Analysis of Persian-English Code-mixed Texts [0.0]
ソーシャルメディアデータの構造化されていない性質から,多言語テキストやコード混合テキストの例が増えている。
本研究では,ペルシャ語と英語の混成ツイートのデータセットを収集,ラベル付けし,作成する。
本稿では,BERTプレトレーニング済み埋め込みと翻訳モデルを用いて,これらのツイートの極性スコアを自動的に学習するモデルを提案する。
論文 参考訳(メタデータ) (2021-02-25T06:05:59Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。