論文の概要: Phoneme-BERT: Joint Language Modelling of Phoneme Sequence and ASR
Transcript
- arxiv url: http://arxiv.org/abs/2102.00804v1
- Date: Mon, 1 Feb 2021 12:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:21:37.704143
- Title: Phoneme-BERT: Joint Language Modelling of Phoneme Sequence and ASR
Transcript
- Title(参考訳): Phoneme-BERT: Phoneme Sequence と ASR Transcript の合同言語モデリング
- Authors: Mukuntha Narayanan Sundararaman, Ayush Kumar, Jithendra Vepa
- Abstract要約: PhonemeBERTは、音素シーケンスとASR文字による共同言語モデルを学び、音素認識表現を学習する。
3つのベンチマークデータセットに対してノイズの多いデータを生成することで、我々のアプローチを広範囲に評価する。
- 参考スコア(独自算出の注目度): 6.696983725360809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed significant improvement in ASR systems to
recognize spoken utterances. However, it is still a challenging task for noisy
and out-of-domain data, where substitution and deletion errors are prevalent in
the transcribed text. These errors significantly degrade the performance of
downstream tasks. In this work, we propose a BERT-style language model,
referred to as PhonemeBERT, that learns a joint language model with phoneme
sequence and ASR transcript to learn phonetic-aware representations that are
robust to ASR errors. We show that PhonemeBERT can be used on downstream tasks
using phoneme sequences as additional features, and also in low-resource setup
where we only have ASR-transcripts for the downstream tasks with no phoneme
information available. We evaluate our approach extensively by generating noisy
data for three benchmark datasets - Stanford Sentiment Treebank, TREC and ATIS
for sentiment, question and intent classification tasks respectively. The
results of the proposed approach beats the state-of-the-art baselines
comprehensively on each dataset.
- Abstract(参考訳): 近年,asrシステムの発話認識能力が大幅に向上している。
しかし、翻訳されたテキストで置換と削除のエラーが流行している、騒々しいドメイン外のデータにとって、まだ難しい作業です。
これらのエラーは下流タスクのパフォーマンスを著しく低下させる。
本研究では,ASRの誤りに頑健な音素認識表現を学習するために,音素シーケンスとASR書き起こしを用いた共同言語モデルを学習するPhonemeBERTと呼ばれるBERTスタイルの言語モデルを提案する。
PhonemeBERTは、音素シーケンスを付加的な機能として使用する下流タスクや、音素情報を利用せずに下流タスク用のASR-transcriptしか持たない低リソース設定でも使用できることを示しています。
我々は3つのベンチマークデータセット(Stanford Sentiment Treebank, TREC, ATIS)に対して,それぞれ感情,質問,意図の分類タスクに対してノイズの多いデータを生成することで,我々のアプローチを広範囲に評価した。
提案手法の結果は,各データセットにおける最先端のベースラインを総合的に上回ります。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Multimodal Audio-textual Architecture for Robust Spoken Language
Understanding [18.702076738332867]
マルチモーダル言語理解 (MLU) モジュールは、ASR文字の誤りによるSLUの性能劣化を軽減するために提案されている。
本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。
その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2023-06-12T01:55:53Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - Multimodal Speech Recognition for Language-Guided Embodied Agents [5.464988285536847]
視覚的コンテキストを考慮したマルチモーダルASRモデルの訓練を行い,音声命令の書き起こしにおける誤りを低減する。
マルチモーダルASRモデルは,一助詞よりも最大30%のマスキング語を回復させることで,視覚的観察の活用によりマスキング語回復が促進されることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:41:48Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Building Robust Spoken Language Understanding by Cross Attention between
Phoneme Sequence and ASR Hypothesis [15.159439853075645]
本稿では,SLU用クロスアテンションモデル(CASLU)を提案する。
クロスアテンションブロックは、音素と単語の埋め込みのきめ細かい相互作用をキャッチし、共同表現が入力の音素的特徴と意味的特徴を同時にキャッチできるようにする。
大規模な実験を3つのデータセットで実施し,提案手法の有効性と競争性を示した。
論文 参考訳(メタデータ) (2022-03-22T21:59:29Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。