Fugu-MT 論文翻訳(概要): Spell my name: keyword boosted speech recognition

論文の概要: Spell my name: keyword boosted speech recognition

arxiv url: http://arxiv.org/abs/2110.02791v1
Date: Wed, 6 Oct 2021 14:16:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-07 14:16:30.598760
Title: Spell my name: keyword boosted speech recognition
Title（参考訳）: spell my name:キーワードによって音声認識が促進される
Authors: Namkyu Jung, Geonmin Kim, Joon Son Chung
Abstract要約: 名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
参考スコア（独自算出の注目度）: 25.931897154065663
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recognition of uncommon words such as names and technical terminology is important to understanding conversations in context. However, the ability to recognise such words remains a challenge in modern automatic speech recognition (ASR) systems. In this paper, we propose a simple but powerful ASR decoding method that can better recognise these uncommon keywords, which in turn enables better readability of the results. The method boosts the probabilities of given keywords in a beam search based on acoustic model predictions. The method does not require any training in advance. We demonstrate the effectiveness of our method on the LibriSpeeech test sets and also internal data of real-world conversations. Our method significantly boosts keyword accuracy on the test sets, while maintaining the accuracy of the other words, and as well as providing significant qualitative improvements. This method is applicable to other tasks such as machine translation, or wherever unseen and difficult keywords need to be recognised in beam search.
Abstract（参考訳）: 会話を理解するには、名前や専門用語などの一般的でない単語の認識が重要である。しかし、このような単語を認識する能力は、現代の自動音声認識(ASR)システムでは依然として課題である。本稿では,これらの非共通なキーワードをよりよく認識し,その結果の可読性を向上する,シンプルだが強力なASR復号法を提案する。本手法は,音響モデル予測に基づくビーム探索において与えられたキーワードの確率を高める。この方法は事前の訓練を必要としない。本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで示す。提案手法は,他の単語の精度を保ちつつ,テストセットのキーワード精度を大幅に向上させるとともに,質的改善をもたらす。この方法は、機械翻訳などの他のタスクにも適用でき、ビーム探索では、見当たらない、難しいキーワードを認識する必要がある。

関連論文リスト

Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文参考訳（メタデータ） (2025-06-23T14:42:03Z)
WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing [5.50485371072671]
そこで本研究では,CTCに基づくモデルにおけるレアワードの認識精度を,追加の訓練やテキスト音声システムなしで向上させる手法を提案する。キーワード検出には,高速かつ不明瞭な一致に寛容なワイルドカードCTCを採用する。日本語音声認識の実験では,未知語に対するF1スコアが29%向上した。
論文参考訳（メタデータ） (2025-06-02T02:30:26Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions [5.50485371072671]
本手法は,ラベルの修正による中間CTC予測に代えて,誤認識対象キーワードの認識精度を向上させる。日本語を用いた実験により,未知語に対するF1スコアの改善が得られた。
論文参考訳（メタデータ） (2024-06-21T06:25:10Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-09-13T13:49:42Z)
PWESuite: Phonetic Word Embeddings and Tasks They Facilitate [37.09948594297879]
音声による単語の埋め込みを構築するために,音声特徴を用いた3つの手法を開発した。また、過去、現在、将来のメソッドを適切に評価するためのタスクスイートも提供します。
論文参考訳（メタデータ） (2023-04-05T16:03:42Z)
Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文参考訳（メタデータ） (2022-03-29T10:05:39Z)
Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文参考訳（メタデータ） (2021-07-05T21:08:34Z)
On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。私たちはこの現象を「語彙依存」と呼んでいる。本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文参考訳（メタデータ） (2020-05-08T11:16:58Z)
Interpretability Analysis for Named Entity Recognition to Understand System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文参考訳（メタデータ） (2020-04-09T14:37:12Z)
Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。 OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文参考訳（メタデータ） (2020-03-19T21:24:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。