論文の概要: Four-in-One: A Joint Approach to Inverse Text Normalization,
Punctuation, Capitalization, and Disfluency for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.15063v1
- Date: Wed, 26 Oct 2022 22:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:56:40.840023
- Title: Four-in-One: A Joint Approach to Inverse Text Normalization,
Punctuation, Capitalization, and Disfluency for Automatic Speech Recognition
- Title(参考訳): 4-in-One: 音声認識のための逆テキスト正規化, ゆらぎ, キャピタリゼーション, および拡散に対する共同手法
- Authors: Sharman Tan, Piyush Behre, Nick Kibre, Issac Alphonso, Shuangyu Chang
- Abstract要約: 音声からテキストへの変換を2段階のプロセスで統一する。
逆テキスト正規化のためのトークンレベルのタグを共同生成するために,単一のトランスフォーマータグモデルを用いる。
次に、タグを適用して書式テキストを生成し、重み付けされた有限状態トランスデューサ文法を用いて、タグ付きITNエンティティスパンをフォーマットする。
- 参考スコア(独自算出の注目度): 0.7937206070844552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Features such as punctuation, capitalization, and formatting of entities are
important for readability, understanding, and natural language processing
tasks. However, Automatic Speech Recognition (ASR) systems produce spoken-form
text devoid of formatting, and tagging approaches to formatting address just
one or two features at a time. In this paper, we unify spoken-to-written text
conversion via a two-stage process: First, we use a single transformer tagging
model to jointly produce token-level tags for inverse text normalization (ITN),
punctuation, capitalization, and disfluencies. Then, we apply the tags to
generate written-form text and use weighted finite state transducer (WFST)
grammars to format tagged ITN entity spans. Despite joining four models into
one, our unified tagging approach matches or outperforms task-specific models
across all four tasks on benchmark test sets across several domains.
- Abstract(参考訳): 句読性、資本化、エンティティのフォーマット化といった機能は、可読性、理解、自然言語処理タスクにおいて重要である。
しかし、自動音声認識(asr)システムは、フォーマッティングのない音声形式のテキストを生成し、一度に1つまたは2つの特徴だけをフォーマッティングするタギングアプローチを行う。
本稿では,2段階のプロセスで音声から文字への変換を統一する。まず,逆テキスト正規化(ITN),句読点,大文字化,および分散化のためのトークンレベルのタグを共同生成するために,単一のトランスフォーマータグモデルを用いる。
次に、タグを適用して書式テキストを生成し、重み付き有限状態トランスデューサ(WFST)文法を用いて、タグ付きITNエンティティスパンをフォーマットする。
4つのモデルを1つにまとめるにも関わらず、当社の統一的なタグ付けアプローチは、複数のドメインにわたるベンチマークテストセットの4つのタスクにまたがるタスク固有のモデルにマッチするか、あるいは上回るものです。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Augmenting text for spoken language understanding with Large Language
Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文 参考訳(メタデータ) (2023-09-17T22:25:34Z) - ARC-NLP at PAN 2023: Transition-Focused Natural Language Inference for
Writing Style Detection [1.4824891788575418]
複数著者による書字スタイル検出の課題は、あるテキスト文書における書字スタイル変更の任意の位置を見つけることである。
2つの連続する段落がペアリングされる自然言語推論問題としてタスクを定式化する。
提案手法は,タスクの入力トークンを切断しながら,段落間の遷移に焦点を当てる。
論文 参考訳(メタデータ) (2023-07-27T14:56:06Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Felix: Flexible Text Editing Through Tagging and Insertion [21.55417495142206]
Felixはフレキシブルなテキスト編集方式で、双方向コンテキストによるデコードと自己教師型事前学習のアイデアから最大限の利益を得るように設計されている。
テキスト編集タスクを2つのサブタスクに分解し、入力トークンのサブセットと出力テキストの順番をタグ付けし、入力に存在しない出力に欠落したトークンを埋め込む。
論文 参考訳(メタデータ) (2020-03-24T07:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。