論文の概要: Multilingual Abusiveness Identification on Code-Mixed Social Media Text
- arxiv url: http://arxiv.org/abs/2204.01848v1
- Date: Tue, 1 Mar 2022 12:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 09:57:06.793452
- Title: Multilingual Abusiveness Identification on Code-Mixed Social Media Text
- Title(参考訳): Code-Mixed Social Media テキストによる多言語虐待識別
- Authors: Ekagra Ranjan, Naman Poddar
- Abstract要約: Indic 言語からなる多言語 Moj データセット上での悪用性同定手法を提案する。
我々のアプローチは、非英語のソーシャルメディアコンテンツにおける共通の課題に取り組み、他の言語にも拡張できる。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social Media platforms have been seeing adoption and growth in their usage
over time. This growth has been further accelerated with the lockdown in the
past year when people's interaction, conversation, and expression were limited
physically. It is becoming increasingly important to keep the platform safe
from abusive content for better user experience. Much work has been done on
English social media content but text analysis on non-English social media is
relatively underexplored. Non-English social media content have the additional
challenges of code-mixing, transliteration and using different scripture in
same sentence. In this work, we propose an approach for abusiveness
identification on the multilingual Moj dataset which comprises of Indic
languages. Our approach tackles the common challenges of non-English social
media content and can be extended to other languages as well.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、時間とともに普及し、利用が伸びている。
この成長は、人々の対話、会話、表現が物理的に制限された過去1年間のロックダウンによってさらに加速している。
ユーザー体験を改善するために、悪質なコンテンツからプラットフォームを安全に保つことがますます重要になっている。
英語のソーシャルメディアでは多くの研究が行われてきたが、非英語のソーシャルメディアでのテキスト分析は、比較的過小評価されている。
非英語のソーシャルメディアコンテンツは、コードミキシング、翻訳、異なるスクリプトを同じ文で使用するという追加の課題がある。
本研究では,indic 言語からなる多言語 moj データセットにおける乱用性同定手法を提案する。
我々のアプローチは、非英語のソーシャルメディアコンテンツの共通の課題に取り組み、他の言語にも拡張できる。
関連論文リスト
- SS-GEN: A Social Story Generation Framework with Large Language Models [87.11067593512716]
自閉症スペクトラム障害(ASD)を持つ子供たちは、しばしば社会的状況を誤解し、日々のルーチンに参加するのに苦労する。
社会物語は伝統的にこれらの課題に対処するために厳格な制約の下で心理学の専門家によって作られた。
幅広い範囲でリアルタイムでソーシャルストーリーを生成するフレームワークである textbfSS-GEN を提案する。
論文 参考訳(メタデータ) (2024-06-22T00:14:48Z) - ArMeme: Propagandistic Content in Arabic Memes [9.48177009736915]
我々は,プロパガンダ的コンテンツの手動アノテーションを用いたアラビア・ミーム・データセットを開発した。
我々は,その検出のための計算ツールの開発を目的とした包括的解析を行う。
論文 参考訳(メタデータ) (2024-06-06T09:56:49Z) - IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages [62.60787450345489]
インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。
我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
論文 参考訳(メタデータ) (2023-11-21T07:50:53Z) - ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text
Ambiguation to Expand Mental Health Care Delivery [52.73936514734762]
ChatGPTは人間のような対話を生成する能力で人気を集めている。
データに敏感なドメインは、プライバシとデータ所有に関する懸念から、ChatGPTを使用する際の課題に直面している。
ユーザのプライバシーを守るためのテキスト曖昧化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T02:09:52Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z) - Characterising User Content on a Multi-lingual Social Network [9.13241181020543]
インドにおけるShareChatと呼ばれる多言語ソーシャルネットワークの特性について紹介する。
私たちは、2019年のインド総選挙の前と14の言語で72週間にわたって、網羅的なデータセットを収集しました。
テルグ語、マラヤラム語、タミル語、カナダ語は政治的イメージの誘惑に支配的であることが判明した。
論文 参考訳(メタデータ) (2020-04-23T22:25:48Z) - A Unified System for Aggression Identification in English Code-Mixed and
Uni-Lingual Texts [25.15521897068512]
我々は、英語のコードミックスデータセットとユニ言語の英語データセットで動作する、統一的で堅牢なディープラーニングアーキテクチャを導入する。
考案されたシステムは、心理言語学的特徴と非常にベーシックな言語的特徴を使用する。
提案システムは、英語のコードミキシングデータセットと単言語の英語データセットに対する従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-01-15T17:06:29Z) - "Hinglish" Language -- Modeling a Messy Code-Mixed Language [0.0]
本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。
我々は、同義語置換、ランダム挿入、ランダムスワップ、ランダム削除などの簡単なテキスト拡張技術を備えた双方向シーケンスモデルを利用する。
論文 参考訳(メタデータ) (2019-12-30T23:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。