論文の概要: "Hinglish" Language -- Modeling a Messy Code-Mixed Language
- arxiv url: http://arxiv.org/abs/1912.13109v1
- Date: Mon, 30 Dec 2019 23:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 01:58:35.125583
- Title: "Hinglish" Language -- Modeling a Messy Code-Mixed Language
- Title(参考訳): hinglish" 言語 -- 乱雑なコード混合言語をモデル化する
- Authors: Vivek Kumar Gupta
- Abstract要約: 本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。
我々は、同義語置換、ランダム挿入、ランダムスワップ、ランダム削除などの簡単なテキスト拡張技術を備えた双方向シーケンスモデルを利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With a sharp rise in fluency and users of "Hinglish" in linguistically
diverse country, India, it has increasingly become important to analyze social
content written in this language in platforms such as Twitter, Reddit,
Facebook. This project focuses on using deep learning techniques to tackle a
classification problem in categorizing social content written in Hindi-English
into Abusive, Hate-Inducing and Not offensive categories. We utilize
bi-directional sequence models with easy text augmentation techniques such as
synonym replacement, random insertion, random swap, and random deletion to
produce a state of the art classifier that outperforms the previous work done
on analyzing this dataset.
- Abstract(参考訳): インドでは、言語的に多様である「ヒングリッシュ」の利用者が急増し、Twitter、Reddit、Facebookなどのプラットフォームでこの言語で書かれたソーシャルコンテンツを分析することがますます重要になっている。
本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。
本論文では,同義語置換,ランダム挿入,ランダムスワップ,ランダム削除などのテキスト拡張手法を用いた双方向シーケンスモデルを用いて,先行研究であるデータ解析に匹敵する画像分類器の状態を生成する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language
from ManglishTweets [0.0]
本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。
これはメッセージレベルの分類タスクです。
埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
論文 参考訳(メタデータ) (2020-10-17T10:11:41Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention
Model for Sentiment Analysis in Code-Mixed Text [1.4926515182392508]
本稿では,SemEval 2020 Task 9 SentiMixに寄与したGenMAモデル感情分析システムについて述べる。
このシステムは、単語レベルの言語タグを使わずに、与えられた英語とヒンディー語を混合したツイートの感情を予測することを目的としている。
論文 参考訳(メタデータ) (2020-07-27T23:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。