論文の概要: Seq-2-Seq based Refinement of ASR Output for Spoken Name Capture
- arxiv url: http://arxiv.org/abs/2203.15833v1
- Date: Tue, 29 Mar 2022 18:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:41:14.968230
- Title: Seq-2-Seq based Refinement of ASR Output for Spoken Name Capture
- Title(参考訳): seq-2-seqに基づく音声名取得のためのasr出力の改良
- Authors: Karan Singla, Shahab Jalalvand, Yeon-Jun Kim, Ryan Price, Daniel
Pressel, Srinivas Bangalore
- Abstract要約: 発声者の発声者から人名を抽出する手法を提案する。
そこで本研究では,スペル修正や不規則除去,テキスト正規化などの作業から着想を得た軽量なSeq-2-Seqシステムを提案する。
- 参考スコア(独自算出の注目度): 16.820137311298172
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Person name capture from human speech is a difficult task in human-machine
conversations. In this paper, we propose a novel approach to capture the person
names from the caller utterances in response to the prompt "say and spell your
first/last name". Inspired from work on spell correction, disfluency removal
and text normalization, we propose a lightweight Seq-2-Seq system which
generates a name spell from a varying user input. Our proposed method
outperforms the strong baseline which is based on LM-driven rule-based
approach.
- Abstract(参考訳): 人間の話し言葉から人名を取り出すことは、人間と機械の会話において難しい作業である。
本稿では,「最初の/最後の名前を言い当てて綴る」というプロンプトに応答して,発信者発声者から人名を取り出す新しい手法を提案する。
スペル修正,不流動除去,テキスト正規化の作業から着想を得て,ユーザ入力から名前スペルを生成する軽量なseq-2-seqシステムを提案する。
提案手法は,lm-driven rule-basedアプローチに基づく強力なベースラインを上回っている。
関連論文リスト
- Contextualization of ASR with LLM using phonetic retrieval-based augmentation [8.823596907304944]
大規模言語モデル(LLM)を文脈化するための検索に基づくソリューションを提案する。
まず、LLMが音声中の名前付きエンティティを文脈なしに検出し、この名前付きエンティティをクエリとして使用して、個人データベースから音声的に類似した名前付きエンティティを検索する。
音声アシスタントタスクでは,単語誤り率を最大30.2%,エンティティエラー率を73.6%削減した。
論文 参考訳(メタデータ) (2024-09-11T18:32:38Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Retraining-free Customized ASR for Enharmonic Words Based on a
Named-Entity-Aware Model and Phoneme Similarity Estimation [0.742779257315787]
本稿では,E2E-ASRモデルと音素類似度推定に基づくE2E-ASRの学習自由度向上手法を提案する。
実験の結果,提案手法は従来のE2E-ASRモデルと比較して平均35.7%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-29T02:10:13Z) - HPE:Answering Complex Questions over Text by Hybrid Question Parsing and
Execution [92.69684305578957]
テキストQAにおける質問解析と実行の枠組みを提案する。
提案したフレームワークは、トップダウンの質問パースとして、ボトムアップの回答バックトラックとみなすことができる。
MuSiQue,2WikiQA,HotpotQA,およびNQに関する実験により,提案した解析およびハイブリッド実行フレームワークが,教師付き,少数ショット,ゼロショット設定における既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-12T22:37:06Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Extending Word-Level Quality Estimation for Post-Editing Assistance [16.74598904954216]
そこで我々は,改良されたタグと単語レベルの対応を出力する改良された単語レベルQEという新しいタスクを提案する。
従来の単語レベルのQEと比較して、新しいタスクは直接編集操作を指摘でき、効率が向上する。
論文 参考訳(メタデータ) (2022-09-23T02:42:11Z) - Who Are We Talking About? Handling Person Names in Speech Translation [18.56702596427545]
我々は、ASR/STシステムの出力を分析し、人名転写/翻訳の失敗の原因を特定する。
次に、多言語モデルを作成することで問題を緩和し、それらを共同で書き起こしや翻訳を強制することでSTシステムをさらに改善する。
論文 参考訳(メタデータ) (2022-05-13T16:37:44Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - Position-Invariant Truecasing with a Word-and-Character Hierarchical
Recurrent Neural Network [10.425277173548212]
本稿では,高速で高精度でコンパクトな2階層型単語と文字に基づくリカレントニューラルネットワークモデルを提案する。
また,文中のトークンの位置を無視しながら,真偽化の問題にも対処する。
論文 参考訳(メタデータ) (2021-08-26T17:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。