論文の概要: DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations
- arxiv url: http://arxiv.org/abs/2206.11822v1
- Date: Thu, 23 Jun 2022 16:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 09:25:36.619237
- Title: DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations
- Title(参考訳): deepsafety:会話における暴力検出のための多レベル音声テキスト特徴抽出と融合アプローチ
- Authors: Amna Anwar, Eiman Kanjo, Dario Ortega Anderez
- Abstract要約: 会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
- 参考スコア(独自算出の注目度): 2.8038382295783943
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural Language Processing has recently made understanding human interaction
easier, leading to improved sentimental analysis and behaviour prediction.
However, the choice of words and vocal cues in conversations presents an
underexplored rich source of natural language data for personal safety and
crime prevention. When accompanied by audio analysis, it makes it possible to
understand the context of a conversation, including the level of tension or
rift between people. Building on existing work, we introduce a new information
fusion approach that extracts and fuses multi-level features including verbal,
vocal, and text as heterogeneous sources of information to detect the extent of
violent behaviours in conversations. Our multilevel multimodel fusion framework
integrates four types of information from raw audio signals including
embeddings generated from both BERT and Bi-long short-term memory (LSTM) models
along with the output of 2D CNN applied to Mel-frequency Cepstrum (MFCC) as
well as the output of audio Time-Domain dense layer. The embeddings are then
passed to three-layer FC networks, which serve as a concatenated step. Our
experimental setup revealed that the combination of the multi-level features
from different modalities achieves better performance than using a single one
with F1 Score=0.85. We expect that the findings derived from our method
provides new approaches for violence detection in conversations.
- Abstract(参考訳): 自然言語処理は、人間のインタラクションを理解しやすくし、感情分析と行動予測を改善した。
しかし、会話における単語の選択と発声の手がかりは、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
音声分析を伴って会話の文脈を理解でき、人との緊張や亀裂の程度も分かる。
既存の作業に基づいて,会話における暴力行動の程度を検出するために,言語,声,テキストなどの多段階特徴を異種情報源として抽出し,融合する新たな情報融合手法を導入する。
我々のマルチレベル・マルチモデル融合フレームワークは、BERTとBi-long短期記憶(LSTM)モデルの両方から生成された埋め込みを含む生オーディオ信号からの4種類の情報と、メル周波数ケプストラム(MFCC)に適用された2D CNNの出力と、オーディオ時間-Domain高密度層の出力を統合する。
埋め込みは3層fcネットワークに渡され、連結されたステップとして機能する。
実験により,F1 Score=0.85を用いた場合よりも,異なるモードのマルチレベル特徴の組み合わせにより性能が向上することがわかった。
本手法から得られた知見は,会話における暴力検出に新たなアプローチをもたらすことを期待する。
関連論文リスト
- Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction [6.1058750788332325]
第6回ワークショップおよび感情行動分析コンペティションの一環として,情緒的不安度(EMI)を評価するための新しい方法論を紹介した。
我々の手法は、広範囲なポッドキャストデータセットで事前トレーニングされたWav2Vec 2.0アーキテクチャを活用している。
我々は,個々の特徴をグローバル平均ベクトルと組み合わせた融合手法を用いて特徴抽出プロセスを洗練する。
論文 参考訳(メタデータ) (2024-03-18T15:32:02Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z) - Pretrained Language Models for Dialogue Generation with Multiple Input
Sources [101.17537614998805]
本研究では,事前学習した言語モデルGPT2から適応した複数の入力源を持つ対話モデルについて検討する。
異なるソースに対応する複数の異なる注意情報を融合する様々な手法を探索する。
実験結果から, 核融合法は単純な核融合ベースラインよりも, 対話履歴との関連性が高いことがわかった。
論文 参考訳(メタデータ) (2020-10-15T07:53:28Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。