論文の概要: Modeling Dependent Structure for Utterances in ASR Evaluation
- arxiv url: http://arxiv.org/abs/2209.05281v1
- Date: Wed, 7 Sep 2022 21:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-18 16:54:46.584785
- Title: Modeling Dependent Structure for Utterances in ASR Evaluation
- Title(参考訳): ASR評価における発話の依存構造モデリング
- Authors: Zhe Liu and Fuchun Peng
- Abstract要約: ブートストラップ再サンプリングは、自動音声認識(ASR)評価において単語誤り率(WER)について重要な分析を行うのに人気がある。
ブロックワイズブートストラップアプローチは、発話を非相関ブロックに分割することで、元のデータの代わりにこれらのブロックを再サンプリングする、という提案もある。
We show that the result variance estimator for WER is consistent under mild conditions。
- 参考スコア(独自算出の注目度): 16.559092192445917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The bootstrap resampling method has been popular for performing significance
analysis on word error rate (WER) in automatic speech recognition (ASR)
evaluations. To deal with the issue of dependent speech data, the blockwise
bootstrap approach is also proposed that by dividing utterances into
uncorrelated blocks, it resamples these blocks instead of original data.
However, it is always nontrivial to uncover the dependent structure among
utterances, which could lead to subjective findings in statistical testing. In
this paper, we present graphical lasso based methods to explicitly model such
dependency and estimate the independent blocks of utterances in a rigorous way.
Then the blockwise bootstrap is applied on top of the inferred blocks. We show
that the resulting variance estimator for WER is consistent under mild
conditions. We also demonstrate the validity of proposed approach on
LibriSpeech data.
- Abstract(参考訳): ブートストラップ再サンプリング法は,音声認識(ASR)評価において,単語誤り率(WER)の重要度分析に人気がある。
係り受け音声データの問題に対処するため、ブロックワイズブートストラップアプローチでは、発話を非相関ブロックに分割することにより、元のデータの代わりにこれらのブロックを再サンプリングする。
しかし、発話間の依存構造を明らかにすることは必ずしも自明ではないため、統計的テストにおいて主観的な発見につながる可能性がある。
本稿では,そのような依存を明示的にモデル化し,発話の独立ブロックを厳密に推定するグラフィカルlasso手法を提案する。
その後、ブロックワイズブートストラップが推論されたブロックの上に適用される。
その結果, 温和な条件下では, wer の分散推定値が一定であることが判明した。
また,LibriSpeechデータに対する提案手法の有効性を示す。
関連論文リスト
- Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - BASS: Block-wise Adaptation for Speech Summarization [47.518484305407185]
本研究では,非常に長い列の要約モデルを漸進的に訓練する手法を開発した。
音声要約はストリーミングプロセスとして実現され、各ブロック毎に仮説要約が更新される。
How2データセットの実験により、提案したブロックワイドトレーニング手法は、乱れた入力ベースライン上のROUGE-L上で絶対的に3ポイント向上することを示した。
論文 参考訳(メタデータ) (2023-07-17T03:31:36Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - AB/BA analysis: A framework for estimating keyword spotting recall
improvement while maintaining audio privacy [0.0]
KWSはキーワードが存在する場合にのみデータを集めるように設計されており、偽陰性を含む可能性のあるハードサンプルの入手を制限している。
AB/BA解析と呼ばれる評価手法を提案する。
AB/BA分析は, 相対的偽陽性率のトレードオフに伴うリコール改善の測定に成功していることを示す。
論文 参考訳(メタデータ) (2022-04-18T13:52:22Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - TSInsight: A local-global attribution framework for interpretability in
time-series data [5.174367472975529]
本稿では,分類器からの勾配と再構成ペナルティに基づいて,その出力に疎性誘導ノルムを付与した自動エンコーダを提案する。
TSInsightは、分類器による予測に重要な機能を保存することを学び、無関係な機能を抑制する。
他のほとんどの属性フレームワークとは対照的に、TSInsightはインスタンスベースの説明とモデルベースの説明の両方を生成することができる。
論文 参考訳(メタデータ) (2020-04-06T19:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。