論文の概要: A Unified System for Aggression Identification in English Code-Mixed and
Uni-Lingual Texts
- arxiv url: http://arxiv.org/abs/2001.05493v2
- Date: Sat, 18 Jan 2020 06:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:41:10.680709
- Title: A Unified System for Aggression Identification in English Code-Mixed and
Uni-Lingual Texts
- Title(参考訳): 英文混成文と単言語文の集約識別のための統一システム
- Authors: Anant Khandelwal, Niraj Kumar
- Abstract要約: 我々は、英語のコードミックスデータセットとユニ言語の英語データセットで動作する、統一的で堅牢なディープラーニングアーキテクチャを導入する。
考案されたシステムは、心理言語学的特徴と非常にベーシックな言語的特徴を使用する。
提案システムは、英語のコードミキシングデータセットと単言語の英語データセットに対する従来のアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 25.15521897068512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wide usage of social media platforms has increased the risk of aggression,
which results in mental stress and affects the lives of people negatively like
psychological agony, fighting behavior, and disrespect to others. Majority of
such conversations contains code-mixed languages[28]. Additionally, the way
used to express thought or communication style also changes from one social
media plat-form to another platform (e.g., communication styles are different
in twitter and Facebook). These all have increased the complexity of the
problem. To solve these problems, we have introduced a unified and robust
multi-modal deep learning architecture which works for English code-mixed
dataset and uni-lingual English dataset both.The devised system, uses
psycho-linguistic features and very ba-sic linguistic features. Our multi-modal
deep learning architecture contains, Deep Pyramid CNN, Pooled BiLSTM, and
Disconnected RNN(with Glove and FastText embedding, both). Finally, the system
takes the decision based on model averaging. We evaluated our system on English
Code-Mixed TRAC 2018 dataset and uni-lingual English dataset obtained from
Kaggle. Experimental results show that our proposed system outperforms all the
previous approaches on English code-mixed dataset and uni-lingual English
dataset.
- Abstract(参考訳): ソーシャルメディアプラットフォームの普及により、攻撃のリスクが増大し、精神的なストレスが引き起こされ、心理的苦痛、戦闘行動、他人への軽視といった人々の生活に悪影響を及ぼしている。
このような会話の大部分は、コード混合言語[28]を含んでいる。
さらに、思考やコミュニケーションスタイルの表現方法も、あるソーシャルメディアのplat-formから別のプラットフォームに変更された(例えば、twitterやfacebookではコミュニケーションスタイルが異なる)。
これらはすべて、問題の複雑さを増した。
これらの問題を解決するために,我々は,英語コード混合データセットと一言語英語データセットの両方で動作する統一的でロバストなマルチモーダルディープラーニングアーキテクチャを導入した。
当社のマルチモーダルディープラーニングアーキテクチャには、Deep Pyramid CNN、Pooled BiLSTM、Disconnect RNN(GloveとFastTextの埋め込みも含む)が含まれています。
最後に、システムはモデル平均化に基づいて決定を行う。
我々は、Kaggleから得られた英語コードミクシングTRAC 2018データセットとユニ言語英語データセットについて評価した。
実験結果から,提案システムは,英語のコード混合データセットと単言語の英語データセットにおいて,従来のアプローチよりも優れていた。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - SADAS: A Dialogue Assistant System Towards Remediating Norm Violations
in Bilingual Socio-Cultural Conversations [56.31816995795216]
SADAS(Socially-Aware Dialogue Assistant System)は、会話が敬意と理解で広がることを保証するためのシステムである。
本システムの新しいアーキテクチャは,(1)対話に存在する規範のカテゴリを特定すること,(2)潜在的な規範違反を検出すること,(3)違反の深刻さを評価すること,(4)違反の是正を目的とした対策を実施すること,を含む。
論文 参考訳(メタデータ) (2024-01-29T08:54:21Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention
Model for Sentiment Analysis in Code-Mixed Text [1.4926515182392508]
本稿では,SemEval 2020 Task 9 SentiMixに寄与したGenMAモデル感情分析システムについて述べる。
このシステムは、単語レベルの言語タグを使わずに、与えられた英語とヒンディー語を混合したツイートの感情を予測することを目的としている。
論文 参考訳(メタデータ) (2020-07-27T23:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。