Fugu-MT 論文翻訳(概要): Boosting Punctuation Restoration with Data Generation and Reinforcement Learning

論文の概要: Boosting Punctuation Restoration with Data Generation and Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.12949v1
Date: Mon, 24 Jul 2023 17:22:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 13:22:04.477837
Title: Boosting Punctuation Restoration with Data Generation and Reinforcement Learning
Title（参考訳）: データ生成と強化学習による句読点復元の促進
Authors: Viet Dac Lai, Abel Salinas, Hao Tan, Trung Bui, Quan Tran, Seunghyun Yoon, Hanieh Deilamsalehy, Franck Dernoncourt, Thien Huu Nguyen
Abstract要約: 触覚回復は自動音声認識(ASR)における重要な課題であるテキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
参考スコア（独自算出の注目度）: 70.26450819702728
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Punctuation restoration is an important task in automatic speech recognition (ASR) which aim to restore the syntactic structure of generated ASR texts to improve readability. While punctuated texts are abundant from written documents, the discrepancy between written punctuated texts and ASR texts limits the usability of written texts in training punctuation restoration systems for ASR texts. This paper proposes a reinforcement learning method to exploit in-topic written texts and recent advances in large pre-trained generative language models to bridge this gap. The experiments show that our method achieves state-of-the-art performance on the ASR test set on two benchmark datasets for punctuation restoration.
Abstract（参考訳）: ASRテキストの構文構造を復元し、可読性を向上させることを目的とした自動音声認識(ASR)において、振れ回復は重要な課題である。句読上げテキストは文書から豊富であるが,句読上げテキストとasrテキストとの相違は,asrテキストの句読上げ復元システムの訓練において,文章の使用性に制限がある。本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。実験により, 句読点復元のための2つのベンチマークデータセットを用いたASR試験において, 最先端の性能が得られた。

関連論文リスト

InstructOCR: Instruction Boosting Scene Text Spotting [10.724187109801251]
InstructOCRは、革新的な命令ベースのシーンテキストスポッティングモデルである。私たちのフレームワークは、トレーニングと推論にテキストエンコーダと画像エンコーダの両方を使用します。広く使われているベンチマークで最先端の結果が得られます。
論文参考訳（メタデータ） (2024-12-20T03:23:26Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文参考訳（メタデータ） (2024-07-29T17:39:08Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
An efficient text augmentation approach for contextualized Mandarin speech recognition [4.600045052545344]
本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-06-14T11:53:14Z)
LibriSpeech-PC: Benchmark for Evaluation of Punctuation and Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文参考訳（メタデータ） (2023-10-04T16:23:37Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text Generation with Speech Synthesis for ASR Data Augmentation [17.348764629839636]
大規模事前学習ニューラルネットワークを用いた音声認識(ASR)のためのテキスト拡張について検討する。ニューラルモデルはWERの相対的な改善を9%-15%達成し,従来の手法より優れていた。
論文参考訳（メタデータ） (2023-05-22T18:45:20Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
A Benchmark Corpus for the Detection of Automatically Generated Text in Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。 BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文参考訳（メタデータ） (2022-02-04T08:16:56Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)
SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。 Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文参考訳（メタデータ） (2020-03-25T09:20:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。