論文の概要: DeepMSRF: A novel Deep Multimodal Speaker Recognition framework with
Feature selection
- arxiv url: http://arxiv.org/abs/2007.06809v2
- Date: Tue, 21 Jul 2020 05:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:43:26.155977
- Title: DeepMSRF: A novel Deep Multimodal Speaker Recognition framework with
Feature selection
- Title(参考訳): deepmsrf: 特徴選択を伴う新しい深層マルチモーダル話者認識フレームワーク
- Authors: Ehsan Asali, Farzan Shenavarmasouleh, Farid Ghareh Mohammadi, Prasanth
Sengadu Suresh, and Hamid R. Arabnia
- Abstract要約: 特徴選択を用いたディープマルチモーダル話者認識法であるディープMSRFを提案する。
我々は2つのモードの特徴、すなわち話者の音声と顔画像の供給によってDeepMSRFを実行する。
DeepMSRFの目標は、まず話者の性別を特定し、さらに特定のビデオストリームに対して氏の名前を認識することである。
- 参考スコア(独自算出の注目度): 2.495606047371841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For recognizing speakers in video streams, significant research studies have
been made to obtain a rich machine learning model by extracting high-level
speaker's features such as facial expression, emotion, and gender. However,
generating such a model is not feasible by using only single modality feature
extractors that exploit either audio signals or image frames, extracted from
video streams. In this paper, we address this problem from a different
perspective and propose an unprecedented multimodality data fusion framework
called DeepMSRF, Deep Multimodal Speaker Recognition with Feature selection. We
execute DeepMSRF by feeding features of the two modalities, namely speakers'
audios and face images. DeepMSRF uses a two-stream VGGNET to train on both
modalities to reach a comprehensive model capable of accurately recognizing the
speaker's identity. We apply DeepMSRF on a subset of VoxCeleb2 dataset with its
metadata merged with VGGFace2 dataset. The goal of DeepMSRF is to identify the
gender of the speaker first, and further to recognize his or her name for any
given video stream. The experimental results illustrate that DeepMSRF
outperforms single modality speaker recognition methods with at least 3 percent
accuracy.
- Abstract(参考訳): ビデオストリームにおける話者認識のために,表情,感情,性別などの高レベル話者の特徴を抽出し,リッチな機械学習モデルを得るための研究が盛んに行われている。
しかし,映像ストリームから抽出した音声信号や画像フレームを利用する単一モード特徴抽出器を使用することで,そのようなモデルを生成することは不可能である。
本稿では,異なる観点からこの問題に対処し,DeepMSRF(Deep Multimodal Speaker Recognition with Feature selection)と呼ばれる前例のないマルチモーダルデータ融合フレームワークを提案する。
我々は2つのモードの特徴、すなわち話者の音声と顔画像の供給によってDeepMSRFを実行する。
DeepMSRFは2ストリームのVGGNETを使用して両方のモードでトレーニングし、話者のアイデンティティを正確に認識できる包括的なモデルに到達する。
メタデータをVGGFace2データセットにマージしたVoxCeleb2データセットのサブセットにDeepMSRFを適用する。
DeepMSRFの目標は、まず話者の性別を特定し、さらに特定のビデオストリームに対して氏の名前を認識することである。
実験の結果,DeepMSRFは,少なくとも3%の精度で単一モード話者認識法より優れていた。
関連論文リスト
- MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z) - Multi-modal Residual Perceptron Network for Audio-Video Emotion
Recognition [0.22843885788439797]
ノイズを低減した深い特徴表現を生成するマルチモーダルネットワークブランチから学習するマルチモーダル残留パーセプトロンネットワーク(MRPN)を提案する。
提案したMPPNモデルとストリーミングデジタル映画の新たな時間拡張のために、最先端の平均認識率は91.4%に向上した。
論文 参考訳(メタデータ) (2021-07-21T13:11:37Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。