論文の概要: Spatio-Temporal Representation Learning Enhanced Source Cell-phone
Recognition from Speech Recordings
- arxiv url: http://arxiv.org/abs/2208.12753v1
- Date: Thu, 25 Aug 2022 07:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:29:51.531211
- Title: Spatio-Temporal Representation Learning Enhanced Source Cell-phone
Recognition from Speech Recordings
- Title(参考訳): 時空間表現学習による音源セルフォン認識の促進
- Authors: Chunyan Zeng, Shixiong Feng, Zhifeng Wang, Xiangkui Wan, Yunfan Chen,
Nan Zhao
- Abstract要約: CC_Mobileデータセットに基づく45台の携帯電話のクローズドセット認識における平均精度は99.03%である。
実験により,マルチクラスの携帯電話音声認識において,優れた音声認識性能を示すことが示された。
- 参考スコア(独自算出の注目度): 7.254151229108913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing source cell-phone recognition method lacks the long-term feature
characterization of the source device, resulting in inaccurate representation
of the source cell-phone related features which leads to insufficient
recognition accuracy. In this paper, we propose a source cell-phone recognition
method based on spatio-temporal representation learning, which includes two
main parts: extraction of sequential Gaussian mean matrix features and
construction of a recognition model based on spatio-temporal representation
learning. In the feature extraction part, based on the analysis of time-series
representation of recording source signals, we extract sequential Gaussian mean
matrix with long-term and short-term representation ability by using the
sensitivity of Gaussian mixture model to data distribution. In the model
construction part, we design a structured spatio-temporal representation
learning network C3D-BiLSTM to fully characterize the spatio-temporal
information, combine 3D convolutional network and bidirectional long short-term
memory network for short-term spectral information and long-time fluctuation
information representation learning, and achieve accurate recognition of
cell-phones by fusing spatio-temporal feature information of recording source
signals. The method achieves an average accuracy of 99.03% for the closed-set
recognition of 45 cell-phones under the CCNU\_Mobile dataset, and 98.18% in
small sample size experiments, with recognition performance better than the
existing state-of-the-art methods. The experimental results show that the
method exhibits excellent recognition performance in multi-class cell-phones
recognition.
- Abstract(参考訳): 既存のセルフォン認識方法は、ソース装置の長期的特徴性が欠如しており、その結果、ソースセルフォン関連特徴が不正確な表現となり、認識精度が不十分となる。
本稿では,時空間表現学習に基づく音源の認識手法を提案する。これは,連続ガウス平均行列特徴の抽出と時空間表現学習に基づく認識モデルの構築という2つの主要な部分を含む。
特徴抽出部では、音源信号の時系列表現の分析に基づいて、ガウス混合モデルの感度をデータ分布に利用して、長期的および短期的な表現能力を有する連続ガウス平均行列を抽出する。
モデル構築部では、時空間情報を完全に特徴付ける構造付き時空間表現学習ネットワークC3D-BiLSTMを設計し、3次元畳み込みネットワークと双方向の長期記憶ネットワークを組み合わせて短期スペクトル情報と長期変動情報表現学習を行い、音源信号の時空間特徴情報を融合して携帯電話の正確な認識を実現する。
CCNU\_Mobileデータセットに基づく45台の携帯電話のクローズドセット認識の平均精度は99.03%、サンプルサイズの小さな実験では98.18%、認識性能は既存の最先端手法よりも優れている。
本手法は,多クラス携帯電話の認識において優れた認識性能を示すことを示す。
関連論文リスト
- GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
マルチモーダル位置認識は ユニセンサーシステムの弱点を克服する能力によって 注目を集めています
本稿では,GSPRと呼ばれる3次元ガウス型マルチモーダル位置認識ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection [1.9223495770071632]
このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。
このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-17T14:17:52Z) - Topology combined machine learning for consonant recognition [8.188982461393278]
TopCapは、低次元の内在性を持つデータセットでまれに検出される特徴をキャプチャできる。
発声子音と無声子音の分類において、TopCapは96%を超える精度を達成している。
TopCapは、音声と音声の深層学習のためのトポロジ的畳み込み層の設計を目的としている。
論文 参考訳(メタデータ) (2023-11-26T06:53:56Z) - A Novel Approach For Analysis of Distributed Acoustic Sensing System
Based on Deep Transfer Learning [0.0]
畳み込みニューラルネットワークは、空間情報を抽出するための非常に有能なツールである。
LSTM(Long-Short term memory)は、シーケンシャルデータを処理するための有効な機器である。
我々のフレームワークのVGG-16アーキテクチャは、50のトレーニングで100%の分類精度が得られる。
論文 参考訳(メタデータ) (2022-06-24T19:56:01Z) - Fourier Disentangled Space-Time Attention for Aerial Video Recognition [54.80846279175762]
本稿では,UAVビデオ行動認識のためのFAR(Fourier Activity Recognition)アルゴリズムを提案する。
我々の定式化は、人間のエージェントを背景から自然に分離するために、新しいフーリエオブジェクト・ディコンタングルメント法を用いています。
我々はUAV Human RGB、UAV Human Night、Drone Action、NEC Droneを含む複数のUAVデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-21T01:24:53Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Benchmarking Deep Learning Interpretability in Time Series Predictions [41.13847656750174]
モデル予測における入力特徴の重要性を強調するために、サリエンシ法が広く用いられている。
そこで我々は,多様なニューラルアーキテクチャにまたがって,サリエンシに基づく様々な解釈可能性手法の性能を広範囲に比較した。
論文 参考訳(メタデータ) (2020-10-26T22:07:53Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。