論文の概要: Code-Mix Sentiment Analysis on Hinglish Tweets
- arxiv url: http://arxiv.org/abs/2601.05091v1
- Date: Thu, 08 Jan 2026 16:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.280059
- Title: Code-Mix Sentiment Analysis on Hinglish Tweets
- Title(参考訳): Hinglish つぶやきのコード・ミクス・センチメント解析
- Authors: Aashi Garg, Aneshya Das, Arshi Arya, Anushka Goyal, Aditi,
- Abstract要約: インドにおけるブランド監視は、ヒングリッシュの台頭によってますます困難になっている。
従来の自然言語処理モデルは、このコード混在言語の構文的および意味論的複雑さを解釈するのに失敗することが多い。
本稿では,Hinglish つぶやきに特化して設計された,高性能な感情分類フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.0998375857698497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of brand monitoring in India is increasingly challenged by the rise of Hinglish--a hybrid of Hindi and English--used widely in user-generated content on platforms like Twitter. Traditional Natural Language Processing (NLP) models, built for monolingual data, often fail to interpret the syntactic and semantic complexity of this code-mixed language, resulting in inaccurate sentiment analysis and misleading market insights. To address this gap, we propose a high-performance sentiment classification framework specifically designed for Hinglish tweets. Our approach fine-tunes mBERT (Multilingual BERT), leveraging its multilingual capabilities to better understand the linguistic diversity of Indian social media. A key component of our methodology is the use of subword tokenization, which enables the model to effectively manage spelling variations, slang, and out-of-vocabulary terms common in Romanized Hinglish. This research delivers a production-ready AI solution for brand sentiment tracking and establishes a strong benchmark for multilingual NLP in low-resource, code-mixed environments.
- Abstract(参考訳): インドにおけるブランドモニタリングの効果は、Hinglish(ヒンディー語と英語のハイブリッド)の台頭によってますます疑問視されている。
モノリンガルデータ用に構築された従来の自然言語処理(NLP)モデルは、しばしばこのコード混在言語の構文的・意味的な複雑さを解釈できず、不正確な感情分析と誤った市場洞察をもたらす。
このギャップに対処するために,Hinglishのつぶやきに特化して設計された,高性能な感情分類フレームワークを提案する。
インドにおけるソーシャルメディアの言語的多様性をよりよく理解するために,その多言語的能力を活用した微細構造mBERT (Multilingual BERT) を提案する。
この手法の重要な構成要素はサブワードトークン化(subword tokenization)であり,ロマライズド・ヒングリッシュで共通する綴りのバリエーションやスラング,語彙外用語を効果的に管理することを可能にする。
この研究は、ブランドの感情追跡のためのプロダクション対応AIソリューションを提供し、低リソースのコード混合環境において、多言語NLPの強力なベンチマークを確立する。
関連論文リスト
- Multilingual Tokenization through the Lens of Indian Languages: Challenges and Insights [27.369278566345074]
本稿では17言語にわたるトークン化戦略の本質的な評価について述べる。
ボトムアップとトップダウンのトークン化アルゴリズムのトレードオフを定量化する。
極端に低リソースな言語は、関連する高リソースな言語で訓練されたトークン化ツールの恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2025-06-21T18:47:33Z) - Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。
データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。
本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文 参考訳(メタデータ) (2025-04-23T11:29:10Z) - Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。