Fugu-MT 論文翻訳(概要): "Hinglish" Language -- Modeling a Messy Code-Mixed Language

論文の概要: "Hinglish" Language -- Modeling a Messy Code-Mixed Language

arxiv url: http://arxiv.org/abs/1912.13109v1
Date: Mon, 30 Dec 2019 23:01:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-17 01:58:35.125583
Title: "Hinglish" Language -- Modeling a Messy Code-Mixed Language
Title（参考訳）: hinglish" 言語 -- 乱雑なコード混合言語をモデル化する
Authors: Vivek Kumar Gupta
Abstract要約: 本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。我々は、同義語置換、ランダム挿入、ランダムスワップ、ランダム削除などの簡単なテキスト拡張技術を備えた双方向シーケンスモデルを利用する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With a sharp rise in fluency and users of "Hinglish" in linguistically diverse country, India, it has increasingly become important to analyze social content written in this language in platforms such as Twitter, Reddit, Facebook. This project focuses on using deep learning techniques to tackle a classification problem in categorizing social content written in Hindi-English into Abusive, Hate-Inducing and Not offensive categories. We utilize bi-directional sequence models with easy text augmentation techniques such as synonym replacement, random insertion, random swap, and random deletion to produce a state of the art classifier that outperforms the previous work done on analyzing this dataset.
Abstract（参考訳）: インドでは、言語的に多様である「ヒングリッシュ」の利用者が急増し、Twitter、Reddit、Facebookなどのプラットフォームでこの言語で書かれたソーシャルコンテンツを分析することがますます重要になっている。本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。本論文では,同義語置換,ランダム挿入,ランダムスワップ,ランダム削除などのテキスト拡張手法を用いた双方向シーケンスモデルを用いて,先行研究であるデータ解析に匹敵する画像分類器の状態を生成する。

関連論文リスト

Code-Mix Sentiment Analysis on Hinglish Tweets [1.0998375857698497]
インドにおけるブランド監視は、ヒングリッシュの台頭によってますます困難になっている。従来の自然言語処理モデルは、このコード混在言語の構文的および意味論的複雑さを解釈するのに失敗することが多い。本稿では,Hinglish つぶやきに特化して設計された,高性能な感情分類フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-08T16:39:26Z)
False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか? 相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文参考訳（メタデータ） (2025-09-23T07:47:54Z)
Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文参考訳（メタデータ） (2025-04-23T11:29:10Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。 CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。 BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文参考訳（メタデータ） (2024-04-02T14:55:47Z)
Offensive Language Identification in Transliterated and Code-Mixed Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。 TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文参考訳（メタデータ） (2023-11-25T13:27:22Z)
Countering Malicious Content Moderation Evasion in Online Social Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文参考訳（メタデータ） (2022-12-27T16:08:49Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文参考訳（メタデータ） (2022-02-22T20:55:31Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Role of Artificial Intelligence in Detection of Hateful Speech for Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文参考訳（メタデータ） (2021-05-11T10:02:28Z)
CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language from ManglishTweets [0.0]
本稿では,HASOC 攻撃言語識別-DravidianCodeMix のサブトラックである Task2 に提案する作業モデルを提案する。これはメッセージレベルの分類タスクです。埋め込みモデルに基づく分類器は、我々のアプローチにおける攻撃的コメントではなく攻撃的コメントを識別する。
論文参考訳（メタデータ） (2020-10-17T10:11:41Z)
Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文参考訳（メタデータ） (2020-07-29T19:38:35Z)
ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention Model for Sentiment Analysis in Code-Mixed Text [1.4926515182392508]
本稿では,SemEval 2020 Task 9 SentiMixに寄与したGenMAモデル感情分析システムについて述べる。このシステムは、単語レベルの言語タグを使わずに、与えられた英語とヒンディー語を混合したツイートの感情を予測することを目的としている。
論文参考訳（メタデータ） (2020-07-27T23:58:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。