論文の概要: Exploring Dynamic Parameters for Vietnamese Gender-Independent ASR
- arxiv url: http://arxiv.org/abs/2507.22964v1
- Date: Wed, 30 Jul 2025 08:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.41744
- Title: Exploring Dynamic Parameters for Vietnamese Gender-Independent ASR
- Title(参考訳): ベトナムのジェンダー非依存型ASRの動的パラメータ探索
- Authors: Sotheara Leang, Éric Castelli, Dominique Vaufreydaz, Sethserey Sam,
- Abstract要約: スペクトルサブバンドセントロイド周波数(SSCF)の比平面における音響遷移を極パラメータを用いて特徴付け、音声の動的特性を捉える。
提案パラメータは単語誤り率を著しく低減し,基本的MFCCよりも性的な独立性を示す。
- 参考スコア(独自算出の注目度): 0.6249768559720122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dynamic characteristics of speech signal provides temporal information and play an important role in enhancing Automatic Speech Recognition (ASR). In this work, we characterized the acoustic transitions in a ratio plane of Spectral Subband Centroid Frequencies (SSCFs) using polar parameters to capture the dynamic characteristics of the speech and minimize spectral variation. These dynamic parameters were combined with Mel-Frequency Cepstral Coefficients (MFCCs) in Vietnamese ASR to capture more detailed spectral information. The SSCF0 was used as a pseudo-feature for the fundamental frequency (F0) to describe the tonal information robustly. The findings showed that the proposed parameters significantly reduce word error rates and exhibit greater gender independence than the baseline MFCCs.
- Abstract(参考訳): 音声信号の動的特性は、時間的情報を提供し、自動音声認識(ASR)の強化に重要な役割を果たしている。
本研究では,スペクトルサブバンドCentroid Frequencies (SSCF) の比平面における音声の動的特性を極性パラメータで把握し,スペクトル変動を最小化するために音響遷移を特徴付ける。
これらの動的パラメータはベトナム共和国のMel-Frequency Cepstral Coefficients (MFCCs)と組み合わせられ、より詳細なスペクトル情報を得た。
SSCF0は基本周波数(F0)の擬似機能として用いられ、音調情報を頑健に記述した。
その結果,提案パラメータは単語誤り率を著しく低減し,MFCCよりも性独立性が高いことがわかった。
関連論文リスト
- Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons [69.73249913506042]
本稿では、共振器(RF)ニューロンを用いて時間領域信号を直接処理する無線スプリットコンピューティングアーキテクチャについて検討する。
可変周波数で共鳴することにより、RFニューロンは低スパイク活性を維持しながら時間局在スペクトル特徴を抽出する。
実験の結果,提案したRF-SNNアーキテクチャは従来のLIF-SNNやANNと同等の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-06-24T21:14:59Z) - Echoes of Phonetics: Unveiling Relevant Acoustic Cues for ASR via Feature Attribution [19.32372029477596]
本稿では,現代コンフォーマーを用いたASRシステムにおいて,関連する音響的手がかりを特定するために,特徴属性手法を適用した。
発声音, 摩擦音, 母音を解析することにより, 特徴属性が時間領域と周波数領域の音響特性とどのように一致しているかを評価する。
論文 参考訳(メタデータ) (2025-06-02T19:11:16Z) - Cross-Frequency Implicit Neural Representation with Self-Evolving Parameters [52.574661274784916]
Inlicit Neural representation (INR) は視覚データ表現の強力なパラダイムとして登場した。
本研究では,データを4つの周波数成分に分離し,ウェーブレット空間でINRを用いるHaar Wavelet変換(CF-INR)を用いた自己進化型クロス周波数INRを提案する。
CF-INRは画像の回帰, 塗装, 装飾, 雲の除去など, 様々な視覚的データ表現および回復タスクで評価される。
論文 参考訳(メタデータ) (2025-04-15T07:14:35Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Blind Acoustic Room Parameter Estimation Using Phase Features [4.473249957074495]
本稿では,新しい位相関連機能を活用して,近年のアプローチを拡張し,いわゆる「残響指紋」パラメータを盲目的に推定する。
これらの特徴の追加は、マグニチュードベースのスペクトル特徴のみに依存する既存の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-13T20:05:41Z) - TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
論文 参考訳(メタデータ) (2023-02-16T04:57:11Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - On the Use of Audio Fingerprinting Features for Speech Enhancement with
Generative Adversarial Network [24.287237963000745]
短周期フーリエ変換(STFT)やMel-Frequency Cepstral Coefficients(MFCC)のような時間周波数領域の特徴は、多くのアプローチで好まれる。
MFCCはコンパクトな表現を提供するが、各メルスケールサブバンドのエネルギーのダイナミクスと分布を無視する。
本研究では、GAN(Generative Adversarial Network)に基づく音声強調システムを構築し、AFPと正規化スペクトルサブバンドセントロイド(NSSC)を組み合わせた実験を行った。
論文 参考訳(メタデータ) (2020-07-27T00:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。