論文の概要: Preliminary Study on SSCF-derived Polar Coordinate for ASR
- arxiv url: http://arxiv.org/abs/2212.01245v1
- Date: Wed, 30 Nov 2022 14:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:31:15.683092
- Title: Preliminary Study on SSCF-derived Polar Coordinate for ASR
- Title(参考訳): ASRのためのSSCF誘導極座標に関する予備的検討
- Authors: Sotheara Leang (CADT, M-PSI), Eric Castelli (M-PSI), Dominique
Vaufreydaz (M-PSI), Sethserey Sam (CADT)
- Abstract要約: 本稿では,音声信号を記述するために,角度を優先して極座標を用いる方法を提案する。
BRAF100データセットで評価した実験結果によると, 極座標は混合および交叉音声認識の角度よりも有意に精度が高かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition angles are defined to describe the vowel-to-vowel transitions
in the acoustic space of the Spectral Subband Centroids, and the findings show
that they are similar among speakers and speaking rates. In this paper, we
propose to investigate the usage of polar coordinates in favor of angles to
describe a speech signal by characterizing its acoustic trajectory and using
them in Automatic Speech Recognition. According to the experimental results
evaluated on the BRAF100 dataset, the polar coordinates achieved significantly
higher accuracy than the angles in the mixed and cross-gender speech
recognitions, demonstrating that these representations are superior at defining
the acoustic trajectory of the speech signal. Furthermore, the accuracy was
significantly improved when they were utilized with their first and
second-order derivatives ($\Delta$, $\Delta$$\Delta$), especially in
cross-female recognition. However, the results showed they were not much more
gender-independent than the conventional Mel-frequency Cepstral Coefficients
(MFCCs).
- Abstract(参考訳): 遷移角はスペクトルサブバンド・ケントロイドの音響空間における母音と母音の遷移を記述するために定義され, 話者と発話速度に類似していることが示唆された。
本稿では,その音響的軌跡を特徴付け,それを音声認識に用いることで,音声信号を記述するための角度を選好する極座標の利用について検討する。
BRAF100データセットで評価した実験結果によると、これらの極座標は混合およびクロスジェンダー音声認識の角度よりも有意に精度が高く、これらの表現が音声信号の音響的軌跡を定義するのに優れていることを示した。
さらに,第1次および第2次誘導体($\Delta$,$\Delta$$\Delta$)を用いて,特に交叉性認知において精度が有意に向上した。
しかし,従来のメル周波数ケプストラム係数(mfccs)に比べ,男女非依存であった。
関連論文リスト
- It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。
この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。
2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文 参考訳(メタデータ) (2024-11-16T08:54:27Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning [141.38505371646482]
クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。
本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。
CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
論文 参考訳(メタデータ) (2021-06-13T07:41:15Z) - Semi-Supervised Speech Recognition via Graph-based Temporal
Classification [59.58318952000571]
半教師付き学習は自己学習による自動音声認識において有望な結果を示した。
このアプローチの有効性は、主に擬似ラベルの精度に依存する。
N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
論文 参考訳(メタデータ) (2020-10-29T14:56:56Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Gravitational-wave selection effects using neural-network classifiers [0.0]
我々は、コンパクトバイナリ・マージから重力波信号のLIGO/Virgo検出性を予測するために、一連のニューラルネットワーク分類器を訓練する。
スピン沈降、高次モード、複数検出器の影響を含める。
我々のアプローチは完全なパイプライン注入と併用できるので、天体物理学とノイズトリガーの実際の分布を重力波の人口分析に含めるための道を開くことができる。
論文 参考訳(メタデータ) (2020-07-13T18:00:04Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z) - Improving auditory attention decoding performance of linear and
non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。
相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文 参考訳(メタデータ) (2020-04-02T09:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。