Fugu-MT 論文翻訳(概要): Contextualized Automatic Speech Recognition with Dynamic Vocabulary

論文の概要: Contextualized Automatic Speech Recognition with Dynamic Vocabulary

arxiv url: http://arxiv.org/abs/2405.13344v2
Date: Fri, 30 Aug 2024 07:43:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 19:51:26.086161
Title: Contextualized Automatic Speech Recognition with Dynamic Vocabulary
Title（参考訳）: 動的語彙を用いた文脈自動音声認識
Authors: Yui Sudo, Yosuke Fukumoto, Muhammad Shakeel, Yifan Peng, Shinji Watanabe,
Abstract要約: 本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。実験の結果,提案手法は英語と日本語のデータセットにおけるバイアスフレーズWERを3.1～4.9ポイント改善することがわかった。
参考スコア（独自算出の注目度）: 41.892863381787684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep biasing (DB) enhances the performance of end-to-end automatic speech recognition (E2E-ASR) models for rare words or contextual phrases using a bias list. However, most existing methods treat bias phrases as sequences of subwords in a predefined static vocabulary. This naive sequence decomposition produces unnatural token patterns, significantly lowering their occurrence probability. More advanced techniques address this problem by expanding the vocabulary with additional modules, including the external language model shallow fusion or rescoring. However, they result in increasing the workload due to the additional modules. This paper proposes a dynamic vocabulary where bias tokens can be added during inference. Each entry in a bias list is represented as a single token, unlike a sequence of existing subword tokens. This approach eliminates the need to learn subword dependencies within the bias phrases. This method is easily applied to various architectures because it only expands the embedding and output layers in common E2E-ASR architectures. Experimental results demonstrate that the proposed method improves the bias phrase WER on English and Japanese datasets by 3.1 -- 4.9 points compared with the conventional DB method.
Abstract（参考訳）: ディープバイアス(DB)は、バイアスリストを用いて、まれな単語や文脈句に対するエンドツーエンドの自動音声認識(E2E-ASR)モデルの性能を向上させる。しかし、既存のほとんどの手法では、バイアスフレーズを事前定義された静的語彙のサブワードのシーケンスとして扱う。この単純配列分解は不自然なトークンパターンを生じさせ、発生確率を著しく低下させる。より高度な技術は、外部言語モデルの浅い融合や再描画を含む追加モジュールで語彙を拡張することでこの問題に対処する。しかし、追加のモジュールによってワークロードが増加します。本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。このアプローチでは、バイアスフレーズ内でサブワードの依存関係を学ぶ必要がなくなる。この方法は、一般的なE2E-ASRアーキテクチャにおいて、埋め込み層と出力層のみを拡張するため、様々なアーキテクチャに容易に適用できる。実験の結果,提案手法は従来のDB法と比較して,英語と日本語のデータセットにおけるバイアスフレーズWERを3.1～4.9ポイント改善することがわかった。

関連論文リスト

Beyond Subtokens: A Rich Character Embedding for Low-resource and Morphologically Complex Languages [5.338837380875301]
word2vec、BERT、GPTといったトークン化とサブトークン化に基づくモデルは、自然言語処理における最先端のモデルである。本稿では,文字列から直接単語ベクトルを計算し,意味情報と構文情報を統合することを提案する。 BERTのようなコンテキストベースの大規模言語モデルと、低リソースおよび形態学的にリッチな言語のための word2vec のような小さなモデルの両方のパフォーマンスを改善する可能性がある。
論文参考訳（メタデータ） (2026-02-24T21:16:08Z)
Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文参考訳（メタデータ） (2025-06-23T14:42:03Z)
ByteSpan: Information-Driven Subword Tokenisation [2.4723044036055306]
トレーニング中に外部バイトレベルLMを用いて、連続した予測可能なバイト列を識別する情報駆動型サブワードトークンであるByteSpanを提案する。実験により、ByteSpanは英語のBPEよりも高い形態的アライメントスコアを持つ効率的な語彙が得られることが示された。
論文参考訳（メタデータ） (2025-06-23T13:42:00Z)
LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文参考訳（メタデータ） (2024-09-20T13:53:37Z)
A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文参考訳（メタデータ） (2024-03-05T13:55:16Z)
Contextualized Automatic Speech Recognition with Attention-Based Bias Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文参考訳（メタデータ） (2024-01-19T01:36:07Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。過去の研究から,メモリ拡張型自動音声認識モデルを用いた。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
CompoundPiece: Evaluating and Improving Decompounding Performance of Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。 We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。分割のための専用モデルを訓練するための新しい手法を導入する。
論文参考訳（メタデータ） (2023-05-23T16:32:27Z)
LabelPrompt: Effective Prompt-based Learning for Relation Classification [31.291466190218912]
本稿では,関係分類タスクのための新しいプロンプト型学習手法であるLabelPromptを提案する。 GIVE MODEL CHOICES!'の直感により、まず関係ラベルを表すための追加トークンを定義し、これらのトークンを意味的初期化を伴う動詞としてみなす。そして、予測関係と与えられた実体との整合性を緩和するために、コントラスト学習を伴うエンティティ認識モジュールを実装した。
論文参考訳（メタデータ） (2023-02-16T04:06:25Z)
Improving Contextual Recognition of Rare Words with an Alternate Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。 2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文参考訳（メタデータ） (2022-09-02T19:30:16Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)
Char2Subword: Extending the Subword Embedding Space Using Robust Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文参考訳（メタデータ） (2020-10-24T01:08:28Z)
BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文参考訳（メタデータ） (2020-04-29T04:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。