論文の概要: Semantic Distance: A New Metric for ASR Performance Analysis Towards
Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2104.02138v1
- Date: Mon, 5 Apr 2021 20:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:14:11.530791
- Title: Semantic Distance: A New Metric for ASR Performance Analysis Towards
Spoken Language Understanding
- Title(参考訳): Semantic Distance: 音声言語理解に向けたASRパフォーマンス分析のための新しいメトリクス
- Authors: Suyoun Kim, Abhinav Arora, Duc Le, Ching-Feng Yeh, Christian Fuegen,
Ozlem Kalinli, Michael L. Seltzer
- Abstract要約: 本稿では,asrシステムの代替評価指標として,新しい意味距離尺度(semdist)を提案する。
提案したメトリクスが,インテント認識,セマンティック解析,名前付きエンティティ認識など,さまざまな下流タスクに有効であることを実証する。
- 参考スコア(独自算出の注目度): 26.958001571944678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word Error Rate (WER) has been the predominant metric used to evaluate the
performance of automatic speech recognition (ASR) systems. However, WER is
sometimes not a good indicator for downstream Natural Language Understanding
(NLU) tasks, such as intent recognition, slot filling, and semantic parsing in
task-oriented dialog systems. This is because WER takes into consideration only
literal correctness instead of semantic correctness, the latter of which is
typically more important for these downstream tasks. In this study, we propose
a novel Semantic Distance (SemDist) measure as an alternative evaluation metric
for ASR systems to address this issue. We define SemDist as the distance
between a reference and hypothesis pair in a sentence-level embedding space. To
represent the reference and hypothesis as a sentence embedding, we exploit
RoBERTa, a state-of-the-art pre-trained deep contextualized language model
based on the transformer architecture. We demonstrate the effectiveness of our
proposed metric on various downstream tasks, including intent recognition,
semantic parsing, and named entity recognition.
- Abstract(参考訳): 単語誤り率(wer)は、自動音声認識(asr)システムの性能を評価するために用いられる主要な指標である。
しかし、werは、タスク指向ダイアログシステムにおけるインテント認識、スロット充填、意味解析など、下流自然言語理解(nlu)タスクにとって良い指標ではない場合がある。
これは、werが意味的正しさではなくリテラル正しさのみを考慮に入れているためであり、後者は一般的に下流タスクにとって重要である。
本研究では,この問題を解決するためのASRシステムの代替評価指標として,セマンティック距離(Semantic Distance:SeemDist)尺度を提案する。
我々はSemDistを文レベルの埋め込み空間における参照対と仮説対の距離として定義する。
参照と仮説を文埋め込みとして表現するために,トランスフォーマーアーキテクチャに基づく最先端の事前学習型深層言語モデルRoBERTaを利用する。
提案手法は,意図認識,意味解析,名前付きエンティティ認識など,様々な下流タスクにおける有効性を示す。
関連論文リスト
- Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。
本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T16:57:05Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Evaluating User Perception of Speech Recognition System Quality with
Semantic Distance Metric [22.884709676587377]
ワードエラー率(WER)は、ASRシステムの品質を評価するために伝統的に用いられてきた。
本稿では,意味的正しさを計測できるSemDistを用いて,ASR出力の品質評価を行う。
論文 参考訳(メタデータ) (2021-10-11T16:09:01Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Semantic-WER: A Unified Metric for the Evaluation of ASR Transcript for
End Usability [1.599072005190786]
最先端のシステムでは単語誤り率(WER)は5%未満である。
Semantic-WER (SWER) は、一般に下流のアプリケーションに対して、ASRの書き起こしを評価するための指標である。
論文 参考訳(メタデータ) (2021-06-03T17:35:14Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。