論文の概要: ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in
Deep Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2005.07777v1
- Date: Fri, 15 May 2020 20:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:53:20.714198
- Title: ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in
Deep Speech Emotion Recognition
- Title(参考訳): ConcealNet: ディープ音声感情認識におけるパケット損失認識のためのエンドツーエンドニューラルネットワーク
- Authors: Mostafa M. Mohamed and Bj\"orn W. Schuller
- Abstract要約: パケット損失は、音声データ伝送を含むデータ伝送において一般的な問題である。
本稿では,重畳されたリカレント・ニューラルセルで使用可能な隠蔽ラッパーを提案する。
提案したConcealNetモデルは、音声再構成とそれに対応する感情予測の両方において、かなり改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Packet loss is a common problem in data transmission, including speech data
transmission. This may affect a wide range of applications that stream audio
data, like streaming applications or speech emotion recognition (SER). Packet
Loss Concealment (PLC) is any technique of facing packet loss. Simple PLC
baselines are 0-substitution or linear interpolation. In this paper, we present
a concealment wrapper, which can be used with stacked recurrent neural cells.
The concealment cell can provide a recurrent neural network (ConcealNet), that
performs real-time step-wise end-to-end PLC at inference time. Additionally,
extending this with an end-to-end emotion prediction neural network provides a
network that performs SER from audio with lost frames, end-to-end. The proposed
model is compared against the fore-mentioned baselines. Additionally, a
bidirectional variant with better performance is utilised. For evaluation, we
chose the public RECOLA dataset given its long audio tracks with continuous
emotion labels. ConcealNet is evaluated on the reconstruction of the audio and
the quality of corresponding emotions predicted after that. The proposed
ConcealNet model has shown considerable improvement, for both audio
reconstruction and the corresponding emotion prediction, in environments that
do not have losses with long duration, even when the losses occur frequently.
- Abstract(参考訳): パケット損失は、音声データ伝送を含むデータ伝送において一般的な問題である。
これは、ストリーミングアプリケーションや音声感情認識(SER)など、オーディオデータをストリーミングする幅広いアプリケーションに影響を与える可能性がある。
Packet Loss Concealment (PLC) はパケットロスに直面する技術である。
単純なPLCベースラインは0置換または線形補間である。
本稿では,重畳されたリカレント・ニューラルセルで使用可能な隠蔽ラッパーを提案する。
隠蔽セルは、推論時にリアルタイムのステップワイズエンドツーエンドplcを実行するリカレントニューラルネットワーク(concealnet)を提供することができる。
さらに、これをエンドツーエンドの感情予測ニューラルネットワークで拡張することで、失われたフレームとエンドツーエンドでオーディオからSERを実行するネットワークを提供する。
提案モデルは, 前述したベースラインと比較する。
さらに、パフォーマンスが向上した双方向の変種が利用される。
評価のために,連続感情ラベル付き長いオーディオトラックから,公開recolaデータセットを選択した。
ConcealNetは、音声の再構成とその後に予測される対応する感情の質を評価する。
提案手法は,音声再構成とそれに対応する感情予測の両方において,長時間の損失を伴わない環境において,損失が頻発しても相当な改善がみられた。
関連論文リスト
- Speech Enhancement for Virtual Meetings on Cellular Networks [1.487576938041254]
本研究では,携帯端末上での仮想会議における深層学習(DL)を用いた音声強調について検討した。
T-Mobileネットワーク上でZoom Meetingsを用いて送信されたDNS(t-DNS)データセットを収集する。
本研究の目的は、深層学習モデルを用いて、携帯電話ネットワーク上で伝達される音声を強化することである。
論文 参考訳(メタデータ) (2023-02-02T04:35:48Z) - Synthetic Voice Detection and Audio Splicing Detection using
SE-Res2Net-Conformer Architecture [2.9805017559176883]
本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。
ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,スプーフィング対策の性能を向上させることができることがわかった。
本稿では,既存の音声スプライシング検出問題を再定式化することを提案する。
論文 参考訳(メタデータ) (2022-10-07T14:30:13Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Network state Estimation using Raw Video Analysis: vQoS-GAN based
non-intrusive Deep Learning Approach [5.8010446129208155]
vQoS GANは、劣化した受信ビデオデータからネットワーク状態パラメータを推定することができる。
ディープラーニングネットワークモデルのロバストでユニークな設計が、データレートとパケット損失クラスラベルと共にビデオデータで訓練されている。
提案した半教師付き生成対向ネットワークは、劣化したビデオデータを元の形式に再構築することで、より良いエンドユーザー体験を実現する。
論文 参考訳(メタデータ) (2022-03-22T10:42:19Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - A Deep Learning Approach for Low-Latency Packet Loss Concealment of
Audio Signals in Networked Music Performance Applications [66.56753488329096]
Networked Music Performance (NMP)は、インターネットアプリケーションにおける潜在的なゲームチェンジャーとして想定されている。
本稿では,ディープ・ラーニング・アプローチを用いて,パケットの損失をリアルタイムで予測する手法について述べる。
論文 参考訳(メタデータ) (2020-07-14T15:51:52Z) - "I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion
Recognition [0.0]
音声による感情認識を利用するアプリケーションでは、フレームロスは多様体の応用を考えると深刻な問題となる。
フレームロスが音声による感情認識に与える影響を初めて検討する。
論文 参考訳(メタデータ) (2020-05-15T19:33:40Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。