論文の概要: User-Aware Multilingual Abusive Content Detection in Social Media
- arxiv url: http://arxiv.org/abs/2410.21321v1
- Date: Sat, 26 Oct 2024 05:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:03.879597
- Title: User-Aware Multilingual Abusive Content Detection in Social Media
- Title(参考訳): ソーシャルメディアにおけるユーザ対応多言語乱用コンテンツ検出
- Authors: Mohammad Zia Ur Rehman, Somya Mehta, Kuldeep Singh, Kunal Kaushik, Nagendra Kumar,
- Abstract要約: 本研究は、複数の低リソースのIndic言語において、乱用コンテンツ検出のための新しい方法を提供することに焦点をあてる。
本研究は,投稿が乱暴なコメントを惹きつける傾向と,ユーザ履歴や社会的文脈などの特徴が,乱暴なコンテンツの検出に大いに役立っていることを示唆する。
- 参考スコア(独自算出の注目度): 1.5574374852568207
- License:
- Abstract: Despite growing efforts to halt distasteful content on social media, multilingualism has added a new dimension to this problem. The scarcity of resources makes the challenge even greater when it comes to low-resource languages. This work focuses on providing a novel method for abusive content detection in multiple low-resource Indic languages. Our observation indicates that a post's tendency to attract abusive comments, as well as features such as user history and social context, significantly aid in the detection of abusive content. The proposed method first learns social and text context features in two separate modules. The integrated representation from these modules is learned and used for the final prediction. To evaluate the performance of our method against different classical and state-of-the-art methods, we have performed extensive experiments on SCIDN and MACI datasets consisting of 1.5M and 665K multilingual comments, respectively. Our proposed method outperforms state-of-the-art baseline methods with an average increase of 4.08% and 9.52% in F1-scores on SCIDN and MACI datasets, respectively.
- Abstract(参考訳): ソーシャルメディア上の不快なコンテンツを止める努力が増えているにもかかわらず、多言語主義はこの問題に新たな次元を加えた。
リソースの不足は、低リソース言語における課題をさらに大きくします。
本研究は、複数の低リソースのIndic言語において、乱用コンテンツ検出のための新しい方法を提供することに焦点をあてる。
本研究は,投稿が乱暴なコメントを惹きつける傾向と,ユーザ履歴や社会的文脈などの特徴が,乱暴なコンテンツの検出に大いに役立っていることを示唆する。
提案手法は、まず2つの異なるモジュールで、社会的・テキスト的コンテキストの特徴を学習する。
これらのモジュールから統合された表現が学習され、最終的な予測に使用される。
従来の手法と最先端手法を比較検討するため,1.5Mと665Kの多言語コメントからなるSCIDNとMACIデータセットについて広範囲に実験を行った。
提案手法は,SCIDNデータセットとMACIデータセットのF1スコアにおいて,平均4.08%,9.52%の増加で,最先端のベースライン法よりも優れていた。
関連論文リスト
- From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models [10.807067327137855]
言語モデルが多言語機能を取り入れているため、私たちの安全対策はペースを保ちます。
言語間で十分なアノテートされたデータセットがないため、私たちは翻訳データを用いて緩和手法を評価し、強化する。
これにより,翻訳品質と言語間移動が毒性軽減に及ぼす影響を検討することができる。
論文 参考訳(メタデータ) (2024-03-06T17:51:43Z) - Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning [10.897468059705238]
監督されたパラフレーズは、意味と意図を維持するために大量のラベル付きデータに大きく依存している。
本稿では,大規模言語モデル(LLM)を用いたICL(In-Context Learning)を探索し,実践者を支援することを目的とする。
本研究は, 実演数と順序, 即時指導の排除, 測定毒性の低下など, 重要な要因に焦点を当てた。
論文 参考訳(メタデータ) (2023-10-16T16:18:55Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Multilingual Perspective Towards the Evaluation of Attribution Methods
in Natural Language Inference [28.949004915740776]
本稿では,自然言語推論(NLI)タスクに対する帰属的手法を評価するための多言語的手法を提案する。
まず,単語アライメントに基づいて忠実度を測定するための新たな言語間戦略を導入する。
次に、異なる出力機構と集約手法を考慮し、帰属手法の包括的な評価を行う。
論文 参考訳(メタデータ) (2022-04-11T22:11:05Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - TEET! Tunisian Dataset for Toxic Speech Detection [0.0]
チュニジア方言は、MSA、タマジット、イタリア語、フランス語など、他の多くの言語と組み合わせられている。
リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。
本稿では,約10kのコメントからなる注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2021-10-11T14:00:08Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。