論文の概要: Multilingual and Multimodal Abuse Detection
- arxiv url: http://arxiv.org/abs/2204.02263v1
- Date: Sun, 3 Apr 2022 13:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 04:17:05.676899
- Title: Multilingual and Multimodal Abuse Detection
- Title(参考訳): 多言語およびマルチモーダル乱用検出
- Authors: Rini Sharon, Heet Shah, Debdoot Mukherjee, Vikram Gupta
- Abstract要約: 本稿では,多言語ソーシャルメディア設定における多モーダル視点からの会話音声における乱用検出を試みる。
提案手法であるMADAは、音声自体以外の2つのモードに明示的にフォーカスする。
提案手法を10の異なる言語で検証し,複数のモダリティを活用することで,0.6%~5.2%の範囲で一貫した利得を観測する。
- 参考スコア(独自算出の注目度): 3.4352862428120123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The presence of abusive content on social media platforms is undesirable as
it severely impedes healthy and safe social media interactions. While automatic
abuse detection has been widely explored in textual domain, audio abuse
detection still remains unexplored. In this paper, we attempt abuse detection
in conversational audio from a multimodal perspective in a multilingual social
media setting. Our key hypothesis is that along with the modelling of audio,
incorporating discriminative information from other modalities can be highly
beneficial for this task. Our proposed method, MADA, explicitly focuses on two
modalities other than the audio itself, namely, the underlying emotions
expressed in the abusive audio and the semantic information encapsulated in the
corresponding textual form. Observations prove that MADA demonstrates gains
over audio-only approaches on the ADIMA dataset. We test the proposed approach
on 10 different languages and observe consistent gains in the range 0.6%-5.2%
by leveraging multiple modalities. We also perform extensive ablation
experiments for studying the contributions of every modality and observe the
best results while leveraging all the modalities together. Additionally, we
perform experiments to empirically confirm that there is a strong correlation
between underlying emotions and abusive behaviour.
- Abstract(参考訳): ソーシャルメディアプラットフォームにおける乱暴なコンテンツの存在は、健康で安全なソーシャルメディアのやりとりを著しく妨げているため、望ましくない。
自動乱用検出はテキスト領域で広く研究されているが、音声乱用検出はまだ未調査のままである。
本稿では,多言語ソーシャルメディアにおけるマルチモーダルな視点から,会話音声における乱用検出を試みる。
我々のキーとなる仮説は、音声のモデル化とともに、他のモダリティからの識別情報を組み込むことが、このタスクに非常に有益であるということである。
提案手法であるmadaは,音声そのもの以外の2つのモダリティ,すなわち乱用音声で表現された基礎的感情と,対応するテキスト形式にカプセル化された意味情報に注目している。
観測の結果、MADAはADIMAデータセットにおけるオーディオのみのアプローチよりも優れていることが示された。
提案手法を10の異なる言語でテストし,複数のモダリティを用いて0.6%-5.2%の範囲で一貫したゲインを観測した。
また,全てのモダリティの寄与を研究するための広範なアブレーション実験を行い,すべてのモダリティを併用しながら最高の結果を観察する。
さらに,基礎となる感情と虐待的行動との間に強い相関があることを実証的に確認する実験を行った。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Missingness-resilient Video-enhanced Multimodal Disfluency Detection [3.3281516035025285]
本稿では,利用可能な映像データと音声を併用したマルチモーダル・ディフルエンシ検出手法を提案する。
私たちのレジリエントなデザインは、推論中にビデオのモダリティが欠落することがある現実世界のシナリオに対応しています。
5つのディフルエンシ検出タスクにわたる実験において、我々の統合マルチモーダルアプローチは、オーディオのみのアンモダル法よりも顕著に優れている。
論文 参考訳(メタデータ) (2024-06-11T05:47:16Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - An Empirical Study and Improvement for Speech Emotion Recognition [22.250228893114066]
マルチモーダル音声の感情認識は、音声とテキストから話者の感情を検出することを目的としている。
本研究では、音声とテキストのモダリティ情報を融合する方法という、シンプルながら重要な問題について考察する。
実験により,本手法はIEMOCAPデータセット上で得られた新しい最先端結果を示す。
論文 参考訳(メタデータ) (2023-04-08T03:24:06Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - MultiQT: Multimodal Learning for Real-Time Question Tracking in Speech [4.384576489684272]
本稿では,音声中のリアルタイムシーケンスラベリングに対する新しいアプローチを提案する。
本モデルでは、音声とそれ自身のテキスト表現を2つの異なるモダリティまたはビューとして扱う。
テキストや音声のみと比較して,2つのモードから共同学習を行うことで大きな効果が得られた。
論文 参考訳(メタデータ) (2020-05-02T12:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。