論文の概要: Phoneme-aware Encoding for Prefix-tree-based Contextual ASR
- arxiv url: http://arxiv.org/abs/2312.09582v1
- Date: Fri, 15 Dec 2023 07:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:50:32.943665
- Title: Phoneme-aware Encoding for Prefix-tree-based Contextual ASR
- Title(参考訳): プレフィックスツリーに基づく文脈ASRのための音素認識符号化
- Authors: Hayato Futami, Emiru Tsunoo, Yosuke Kashiwagi, Hiroaki Ogawa, Siddhant
Arora, Shinji Watanabe
- Abstract要約: Tree-Constrained Pointer Generator (TCPGen)はこの目的を約束している。
音素認識符号化で拡張することで、異常な発音の単語をよりよく認識することを提案する。
- 参考スコア(独自算出の注目度): 45.161909551392085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speech recognition applications, it is important to recognize
context-specific rare words, such as proper nouns. Tree-constrained Pointer
Generator (TCPGen) has shown promise for this purpose, which efficiently biases
such words with a prefix tree. While the original TCPGen relies on
grapheme-based encoding, we propose extending it with phoneme-aware encoding to
better recognize words of unusual pronunciations. As TCPGen handles biasing
words as subword units, we propose obtaining subword-level phoneme-aware
encoding by using alignment between phonemes and subwords. Furthermore, we
propose injecting phoneme-level predictions from CTC into queries of TCPGen so
that the model better interprets the phoneme-aware encodings. We conducted ASR
experiments with TCPGen for RNN transducer. We observed that proposed
phoneme-aware encoding outperformed ordinary grapheme-based encoding on both
the English LibriSpeech and Japanese CSJ datasets, demonstrating the robustness
of our approach across linguistically diverse languages.
- Abstract(参考訳): 音声認識の応用においては、適切な名詞などの文脈固有の稀な単語を認識することが重要である。
tree-constrained pointer generator (tcpgen) はこの目的に有望であり、プレフィックスツリーでこれらの単語を効率的にバイアスする。
元のTCPGenは、グラファイムベースのエンコーディングに依存しているが、不規則な発音の単語をよりよく認識するために、音素認識エンコーディングで拡張することを提案する。
TCPGenは単語をサブワード単位として扱うため,音素とサブワードのアライメントを用いてサブワードレベルの音素認識符号化を提案する。
さらに,ctcからtcpgenのクエリへ音素レベルの予測を注入することで,音素認識エンコーディングをよりよく解釈する手法を提案する。
RNNトランスデューサのためのTCPGenを用いてASR実験を行った。
提案した音素認識符号化法は,英語のLibriSpeechと日本語のCSJデータセットにおいて,言語的に多言語にまたがるアプローチの堅牢性を実証した。
関連論文リスト
- T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining [8.129944388402839]
本稿では,コントラスト言語-画像事前学習(CLIP)に先行音声を挿入する。
IPA-CLIPはこの発音エンコーダと元のCLIPエンコーダ(画像とテキスト)からなる。
論文 参考訳(メタデータ) (2023-03-06T13:59:37Z) - Tree-constrained Pointer Generator with Graph Neural Network Encodings
for Contextual Speech Recognition [19.372248692745167]
本稿では,木制約ポインタジェネレータ (TCPGen) コンポーネントにおけるグラフニューラルネットワーク (GNN) のエンド・ツー・エンドコンテキスト ASR への利用を提案する。
GNNエンコーディングのTCPGenは、元のTCPGenと比較して、バイアスのある単語のWERを15%削減した。
論文 参考訳(メタデータ) (2022-07-02T15:12:18Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文 参考訳(メタデータ) (2021-09-01T21:41:59Z) - A Dual-Decoder Conformer for Multilingual Speech Recognition [4.594159253008448]
本研究は,インド語に対する低リソース多言語音声認識のためのデュアルデコーダ変換モデルを提案する。
音素認識タスクにはPHN-DEC,言語情報にはGRP-DECを用いる。
実験の結果,ベースラインアプローチよりもWERの大幅な削減が可能であることがわかった。
論文 参考訳(メタデータ) (2021-08-22T09:22:28Z) - Worse WER, but Better BLEU? Leveraging Word Embedding as Intermediate in
Multitask End-to-End Speech Translation [127.54315184545796]
音声翻訳(ST)は、ソース言語の音声からターゲット言語のテキストへの変換を学習することを目的としている。
単語埋め込みを中間語として活用することでマルチタスクSTモデルを改善することを提案する。
論文 参考訳(メタデータ) (2020-05-21T14:22:35Z) - A systematic comparison of grapheme-based vs. phoneme-based label units
for encoder-decoder-attention models [42.761409598613845]
我々は,エンコーダ・デコーダ・アテンションASRモデルに対して,グラファイムと音素に基づく出力ラベルを体系的に比較する。
Switchboard 300h と LibriSpeech ベンチマークで実施された実験は、音素ベースのモデリングは、グラファイムベースのエンコーダ-デコーダ-アテンションモデリングと競合していることを示している。
論文 参考訳(メタデータ) (2020-05-19T09:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。