論文の概要: "I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2005.07757v1
- Date: Fri, 15 May 2020 19:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:53:40.943065
- Title: "I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion
Recognition
- Title(参考訳): i have vxxx bxx connexxxn!」: 深い音声感情認識におけるパケットロスに直面する
- Authors: Mostafa M. Mohamed and Bj\"orn W. Schuller
- Abstract要約: 音声による感情認識を利用するアプリケーションでは、フレームロスは多様体の応用を考えると深刻な問題となる。
フレームロスが音声による感情認識に与える影響を初めて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In applications that use emotion recognition via speech, frame-loss can be a
severe issue given manifold applications, where the audio stream loses some
data frames, for a variety of reasons like low bandwidth. In this contribution,
we investigate for the first time the effects of frame-loss on the performance
of emotion recognition via speech. Reproducible extensive experiments are
reported on the popular RECOLA corpus using a state-of-the-art end-to-end deep
neural network, which mainly consists of convolution blocks and recurrent
layers. A simple environment based on a Markov Chain model is used to model the
loss mechanism based on two main parameters. We explore matched, mismatched,
and multi-condition training settings. As one expects, the matched setting
yields the best performance, while the mismatched yields the lowest.
Furthermore, frame-loss as a data augmentation technique is introduced as a
general-purpose strategy to overcome the effects of frame-loss. It can be used
during training, and we observed it to produce models that are more robust
against frame-loss in run-time environments.
- Abstract(参考訳): 音声による感情認識を使用するアプリケーションでは、帯域幅の低さなどさまざまな理由から、オーディオストリームがいくつかのデータフレームを失うため、フレームロスが深刻な問題となる可能性がある。
本研究では,フレームロスが音声による感情認識性能に与える影響を初めて検討する。
再現可能な広範な実験は、畳み込みブロックとリカレント層で構成される最先端のエンドツーエンドディープニューラルネットワークを使用して、ポピュラーなrecolaコーパスで報告されている。
マルコフ連鎖モデルに基づく単純な環境を用いて、2つの主パラメータに基づく損失機構をモデル化する。
マッチング、ミスマッチ、マルチ条件トレーニングの設定を調査します。
予想通り、マッチした設定は最高のパフォーマンスを得るが、ミスマッチした設定は最低となる。
さらに,データ拡張手法としてのフレームロスは,フレームロスの効果を克服するための汎用戦略として導入された。
トレーニング中に使用することができ、ランタイム環境でフレームロスに対してより堅牢なモデルを作成するために観察した。
関連論文リスト
- Perception-Oriented Video Frame Interpolation via Asymmetric Blending [20.0024308216849]
ビデオフレーム補間(VFI)の従来の手法は、特にぼやけやゴースト効果の顕在化といった問題に直面している。
本稿では,これらの課題を軽減するためにPerVFI(Perception-oriented Video Frame Interpolation)を提案する。
実験により,PerVFIの優位性が検証され,既存の手法に比べて知覚品質が有意に向上した。
論文 参考訳(メタデータ) (2024-04-10T02:40:17Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - SAFL: A Self-Attention Scene Text Recognizer with Focal Loss [4.462730814123762]
歪みや不規則なレイアウトといった固有の問題のために、シーンテキスト認識は依然として困難である。
既存のアプローチのほとんどは、主に再発や畳み込みに基づくニューラルネットワークを利用している。
本稿では,シーンテキスト認識のための焦点損失を考慮した自己注意型ニューラルネットワークモデルSAFLを紹介する。
論文 参考訳(メタデータ) (2022-01-01T06:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。