論文の概要: Unsupervised speech intelligibility assessment with utterance level
alignment distance between teacher and learner Wav2Vec-2.0 representations
- arxiv url: http://arxiv.org/abs/2306.08845v1
- Date: Thu, 15 Jun 2023 04:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:44:07.655427
- Title: Unsupervised speech intelligibility assessment with utterance level
alignment distance between teacher and learner Wav2Vec-2.0 representations
- Title(参考訳): 教師と学習者のWav2Vec-2.0表現間の発話レベルアライメント距離を用いた教師なし音声のインテリジェンス評価
- Authors: Nayan Anand, Meenakshi Sirigiraju, Chiranjeevi Yarra
- Abstract要約: 音声の知性は、効果的なコミュニケーションのための言語学習において不可欠である。
研究の多くは、その知性を監督的な方法で評価している。
本研究は,SIDに対する教師なしアプローチを提案する。
- 参考スコア(独自算出の注目度): 5.282604888316005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech intelligibility is crucial in language learning for effective
communication. Thus, to develop computer-assisted language learning systems,
automatic speech intelligibility detection (SID) is necessary. Most of the
works have assessed the intelligibility in a supervised manner considering
manual annotations, which requires cost and time; hence scalability is limited.
To overcome these, this work proposes an unsupervised approach for SID. The
proposed approach considers alignment distance computed with dynamic-time
warping (DTW) between teacher and learner representation sequence as a measure
to separate intelligible versus non-intelligible speech. We obtain the feature
sequence using current state-of-the-art self-supervised representations from
Wav2Vec-2.0. We found the detection accuracies as 90.37\%, 92.57\% and 96.58\%,
respectively, with three alignment distance measures -- mean absolute error,
mean squared error and cosine distance (equal to one minus cosine similarity).
- Abstract(参考訳): 音声の知性は、効果的なコミュニケーションのための言語学習において重要である。
したがって、コンピュータ支援言語学習システムの開発には、自動音声認識(SID)が必要である。
ほとんどの作品は、コストと時間を必要とする手動アノテーションを考慮し、監督された方法で知性を評価しているため、スケーラビリティは限られている。
そこで本研究では,SIDに対する教師なしアプローチを提案する。
提案手法では,教師と学習者の表象列間の動的時間ワーピング(dtw)で計算されたアライメント距離を,理解可能音声と非知性音声とを分離する尺度として検討する。
我々は,wav2vec-2.0から最先端の自己教師付き表現を用いた特徴列を得る。
検出精度は90.37\%, 92.57\%, 96.58\%であり, 平均絶対誤差, 平均二乗誤差, コサイン距離の3つのアライメント距離尺度 (1つのマイナスコサイン類似度に等しい) が得られた。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - MAESTRO: Matched Speech Text Representations through Modality Matching [35.566604806335626]
Maestroは、音声とテキストのモダリティから学習した表現を統一する自己教師型訓練手法である。
単語誤り率(WER)を11%低減したVoxPopuli多言語ASR上でのSOTA(State-of-the-art)を確立する。
我々はCoVoST 2上に新しい最先端のSOTA(State-of-the-art)を確立し、21以上の言語で平均2.8BLEUを改善した。
論文 参考訳(メタデータ) (2022-04-07T12:48:16Z) - Self-supervised Contrastive Cross-Modality Representation Learning for
Spoken Question Answering [29.545937716796082]
音声質問応答 (SQA) は、音声文書と質問の両方をきめ細かな理解を必要とする。
本稿では,自己指導型学習段階とコントラッシブな表現学習段階を併用した音声質問応答のための新しい学習手法を提案する。
本モデルでは,3つのSQAベンチマークの最先端結果が得られた。
論文 参考訳(メタデータ) (2021-09-08T01:13:14Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies [91.92060221982064]
非自己回帰予測符号化(NPC)を提案する。
NPCは概念的には単純で、Masked Convolution Blocksで簡単に実装できる。
また,NPC表現は音声や話者の分類における他の手法に匹敵するが,より効率的であることを示す。
論文 参考訳(メタデータ) (2020-11-01T02:48:37Z) - Evaluating the reliability of acoustic speech embeddings [10.5754802112615]
音声埋め込みは可変長音声列の定サイズ音響表現である。
ここでは,ABX識別と平均精度 (MAP) という2つの一般的な指標を,17の埋め込み手法にまたがる5つの言語で体系的に比較する。
ABXとMAPは相互に相関し,周波数推定を行う。
論文 参考訳(メタデータ) (2020-07-27T13:24:09Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z) - Unsupervised feature learning for speech using correspondence and
Siamese networks [24.22616495324351]
フレームレベルの音響特徴学習における最近の2つの手法を比較した。
どちらの方法も、教師なしの項発見は、同じ未知の型の単語のペアを見つけるために用いられる。
対応オートエンコーダ(CAE)では、マッチングフレームを入出力ペアとして表示する。
これらの特徴抽出器を、同じ弱い監督ペアを用いて、同一の識別タスクで初めて比較する。
論文 参考訳(メタデータ) (2020-03-28T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。