Fugu-MT 論文翻訳(概要): Preliminary Study on SSCF-derived Polar Coordinate for ASR

論文の概要: Preliminary Study on SSCF-derived Polar Coordinate for ASR

arxiv url: http://arxiv.org/abs/2212.01245v1
Date: Wed, 30 Nov 2022 14:57:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 16:31:15.683092
Title: Preliminary Study on SSCF-derived Polar Coordinate for ASR
Title（参考訳）: ASRのためのSSCF誘導極座標に関する予備的検討
Authors: Sotheara Leang (CADT, M-PSI), Eric Castelli (M-PSI), Dominique Vaufreydaz (M-PSI), Sethserey Sam (CADT)
Abstract要約: 本稿では,音声信号を記述するために,角度を優先して極座標を用いる方法を提案する。 BRAF100データセットで評価した実験結果によると, 極座標は混合および交叉音声認識の角度よりも有意に精度が高かった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The transition angles are defined to describe the vowel-to-vowel transitions in the acoustic space of the Spectral Subband Centroids, and the findings show that they are similar among speakers and speaking rates. In this paper, we propose to investigate the usage of polar coordinates in favor of angles to describe a speech signal by characterizing its acoustic trajectory and using them in Automatic Speech Recognition. According to the experimental results evaluated on the BRAF100 dataset, the polar coordinates achieved significantly higher accuracy than the angles in the mixed and cross-gender speech recognitions, demonstrating that these representations are superior at defining the acoustic trajectory of the speech signal. Furthermore, the accuracy was significantly improved when they were utilized with their first and second-order derivatives ($\Delta$, $\Delta$$\Delta$), especially in cross-female recognition. However, the results showed they were not much more gender-independent than the conventional Mel-frequency Cepstral Coefficients (MFCCs).
Abstract（参考訳）: 遷移角はスペクトルサブバンド・ケントロイドの音響空間における母音と母音の遷移を記述するために定義され, 話者と発話速度に類似していることが示唆された。本稿では,その音響的軌跡を特徴付け,それを音声認識に用いることで,音声信号を記述するための角度を選好する極座標の利用について検討する。 BRAF100データセットで評価した実験結果によると、これらの極座標は混合およびクロスジェンダー音声認識の角度よりも有意に精度が高く、これらの表現が音声信号の音響的軌跡を定義するのに優れていることを示した。さらに,第1次および第2次誘導体($\Delta$,$\Delta$$\Delta$)を用いて,特に交叉性認知において精度が有意に向上した。しかし,従来のメル周波数ケプストラム係数(mfccs)に比べ,男女非依存であった。

関連論文リスト

Robust Tangent Space Estimation via Laplacian Eigenvector Gradient Orthogonalization [48.25304391127552]
データ多様体の接空間を推定することは、データ解析の基本的な問題である。局所接空間推定を導くために,データのグローバル構造を利用したラプラシアン固有ベクトル勾配直交化法(LEGO)を提案する。
論文参考訳（メタデータ） (2025-10-02T17:59:45Z)
Exploring Dynamic Parameters for Vietnamese Gender-Independent ASR [0.6249768559720122]
スペクトルサブバンドセントロイド周波数(SSCF)の比平面における音響遷移を極パラメータを用いて特徴付け、音声の動的特性を捉える。提案パラメータは単語誤り率を著しく低減し,基本的MFCCよりも性的な独立性を示す。
論文参考訳（メタデータ） (2025-07-30T08:25:55Z)
It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。 2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文参考訳（メタデータ） (2024-11-16T08:54:27Z)
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文参考訳（メタデータ） (2023-07-06T10:50:46Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Acoustic To Articulatory Speech Inversion Using Multi-Resolution Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。実験は、0.675と接地軌道変数の相関を達成した。
論文参考訳（メタデータ） (2022-03-11T07:27:42Z)
Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning [141.38505371646482]
クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。 CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
論文参考訳（メタデータ） (2021-06-13T07:41:15Z)
Semi-Supervised Speech Recognition via Graph-based Temporal Classification [59.58318952000571]
半教師付き学習は自己学習による自動音声認識において有望な結果を示した。このアプローチの有効性は、主に擬似ラベルの精度に依存する。 N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
論文参考訳（メタデータ） (2020-10-29T14:56:56Z)
Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文参考訳（メタデータ） (2020-08-12T17:41:25Z)
Gravitational-wave selection effects using neural-network classifiers [0.0]
我々は、コンパクトバイナリ・マージから重力波信号のLIGO/Virgo検出性を予測するために、一連のニューラルネットワーク分類器を訓練する。スピン沈降、高次モード、複数検出器の影響を含める。我々のアプローチは完全なパイプライン注入と併用できるので、天体物理学とノイズトリガーの実際の分布を重力波の人口分析に含めるための道を開くことができる。
論文参考訳（メタデータ） (2020-07-13T18:00:04Z)
Glottal source estimation robustness: A comparison of sensitivity of voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。 ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文参考訳（メタデータ） (2020-05-24T08:13:47Z)
Improving auditory attention decoding performance of linear and non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。 AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文参考訳（メタデータ） (2020-04-02T09:56:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。