Fugu-MT 論文翻訳(概要): Four-in-One: A Joint Approach to Inverse Text Normalization, Punctuation, Capitalization, and Disfluency for Automatic Speech Recognition

論文の概要: Four-in-One: A Joint Approach to Inverse Text Normalization, Punctuation, Capitalization, and Disfluency for Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2210.15063v1
Date: Wed, 26 Oct 2022 22:21:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 13:56:40.840023
Title: Four-in-One: A Joint Approach to Inverse Text Normalization, Punctuation, Capitalization, and Disfluency for Automatic Speech Recognition
Title（参考訳）: 4-in-One: 音声認識のための逆テキスト正規化, ゆらぎ, キャピタリゼーション, および拡散に対する共同手法
Authors: Sharman Tan, Piyush Behre, Nick Kibre, Issac Alphonso, Shuangyu Chang
Abstract要約: 音声からテキストへの変換を2段階のプロセスで統一する。逆テキスト正規化のためのトークンレベルのタグを共同生成するために,単一のトランスフォーマータグモデルを用いる。次に、タグを適用して書式テキストを生成し、重み付けされた有限状態トランスデューサ文法を用いて、タグ付きITNエンティティスパンをフォーマットする。
参考スコア（独自算出の注目度）: 0.7937206070844552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Features such as punctuation, capitalization, and formatting of entities are important for readability, understanding, and natural language processing tasks. However, Automatic Speech Recognition (ASR) systems produce spoken-form text devoid of formatting, and tagging approaches to formatting address just one or two features at a time. In this paper, we unify spoken-to-written text conversion via a two-stage process: First, we use a single transformer tagging model to jointly produce token-level tags for inverse text normalization (ITN), punctuation, capitalization, and disfluencies. Then, we apply the tags to generate written-form text and use weighted finite state transducer (WFST) grammars to format tagged ITN entity spans. Despite joining four models into one, our unified tagging approach matches or outperforms task-specific models across all four tasks on benchmark test sets across several domains.
Abstract（参考訳）: 句読性、資本化、エンティティのフォーマット化といった機能は、可読性、理解、自然言語処理タスクにおいて重要である。しかし、自動音声認識(asr)システムは、フォーマッティングのない音声形式のテキストを生成し、一度に1つまたは2つの特徴だけをフォーマッティングするタギングアプローチを行う。本稿では,2段階のプロセスで音声から文字への変換を統一する。まず,逆テキスト正規化(ITN),句読点,大文字化,および分散化のためのトークンレベルのタグを共同生成するために,単一のトランスフォーマータグモデルを用いる。次に、タグを適用して書式テキストを生成し、重み付き有限状態トランスデューサ(WFST)文法を用いて、タグ付きITNエンティティスパンをフォーマットする。 4つのモデルを1つにまとめるにも関わらず、当社の統一的なタグ付けアプローチは、複数のドメインにわたるベンチマークテストセットの4つのタスクにまたがるタスク固有のモデルにマッチするか、あるいは上回るものです。

関連論文リスト

Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules [19.673388630963807]
課題をスパン条件付き世代として定式化し、各ターンを対話履歴に分解する。本稿では,タスク固有の対話を自動的に合成する引用中心のデータパイプラインを提案する。本稿では,2つのボトルネックプロジェクションをアタッチメントヘッドにアタッチする軽量なトレーニングベース手法QuAdaを提案する。
論文参考訳（メタデータ） (2025-05-30T07:06:11Z)
FonTS: Text Rendering with Typography and Style Controls [12.717568891224074]
本稿では,テキストレンダリングにおけるタイポグラフィとスタイルの制御性を向上させることで,この問題に対処する2段階のDiTパイプラインを提案する。タイポグラフィ制御トークン(ETCトークン)を囲むパラメータ効率の良い微調整法であるTC-FTを導入する。テキストレンダリングにおけるスタイルの不整合性に対処するため,スタイル整合性を高めつつコンテンツ漏洩を防止するテキスト非依存型スタイル制御アダプタ(SCA)を提案する。
論文参考訳（メタデータ） (2024-11-28T16:19:37Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
Augmenting text for spoken language understanding with Large Language Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文参考訳（メタデータ） (2023-09-17T22:25:34Z)
ARC-NLP at PAN 2023: Transition-Focused Natural Language Inference for Writing Style Detection [1.4824891788575418]
複数著者による書字スタイル検出の課題は、あるテキスト文書における書字スタイル変更の任意の位置を見つけることである。 2つの連続する段落がペアリングされる自然言語推論問題としてタスクを定式化する。提案手法は,タスクの入力トークンを切断しながら,段落間の遷移に焦点を当てる。
論文参考訳（メタデータ） (2023-07-27T14:56:06Z)
Reducing Sequence Length by Predicting Edit Operations with Large Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文参考訳（メタデータ） (2023-05-19T17:51:05Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文参考訳（メタデータ） (2022-10-30T06:38:19Z)
Improving Multi-task Generalization Ability for Neural Text Matching via Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文参考訳（メタデータ） (2022-04-06T11:01:08Z)
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文参考訳（メタデータ） (2021-10-20T00:59:36Z)
Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文参考訳（メタデータ） (2020-10-02T18:31:45Z)
Felix: Flexible Text Editing Through Tagging and Insertion [21.55417495142206]
Felixはフレキシブルなテキスト編集方式で、双方向コンテキストによるデコードと自己教師型事前学習のアイデアから最大限の利益を得るように設計されている。テキスト編集タスクを2つのサブタスクに分解し、入力トークンのサブセットと出力テキストの順番をタグ付けし、入力に存在しない出力に欠落したトークンを埋め込む。
論文参考訳（メタデータ） (2020-03-24T07:01:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。