論文の概要: Capitalization and Punctuation Restoration: a Survey
- arxiv url: http://arxiv.org/abs/2111.10746v1
- Date: Sun, 21 Nov 2021 05:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:27:25.968209
- Title: Capitalization and Punctuation Restoration: a Survey
- Title(参考訳): 資本化と再生 : アンケート調査より
- Authors: Vasile P\u{a}i\c{s}, Dan Tufi\c{s}
- Abstract要約: 適切な句読点と文字のケーシングを保証することは、複雑な自然言語処理アルゴリズムを適用するための重要な前処理ステップである。
短いテキストメッセージとマイクロブログプラットフォームは、信頼性が低く、しばしば誤った句読とケーシングを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring proper punctuation and letter casing is a key pre-processing step
towards applying complex natural language processing algorithms. This is
especially significant for textual sources where punctuation and casing are
missing, such as the raw output of automatic speech recognition systems.
Additionally, short text messages and micro-blogging platforms offer unreliable
and often wrong punctuation and casing. This survey offers an overview of both
historical and state-of-the-art techniques for restoring punctuation and
correcting word casing. Furthermore, current challenges and research directions
are highlighted.
- Abstract(参考訳): 適切な句読と文字のケーシングを保証することは、複雑な自然言語処理アルゴリズムを適用するための重要な前処理ステップである。
これは、自動音声認識システムの生出力など、句読点やケーシングが欠落しているテキストソースにおいて特に重要である。
さらに、短いテキストメッセージとマイクロブログプラットフォームは、信頼できず、しばしば間違った句読点とケーシングを提供する。
本調査は,句読点の復元と単語の字幕の修正のための歴史技術と最先端技術の両方について概説する。
さらに、現在の課題や研究の方向性も強調されている。
関連論文リスト
- LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation [0.08602553195689511]
本研究では,コネクショニスト時間分類(CTC)の損失を学習したチャンクベースのトランスフォーマーエンコーダを用いて,入力音声から句読影テキストを予測する手法を提案する。
チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
論文 参考訳(メタデータ) (2023-06-02T06:46:14Z) - End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。
従来の自動音声認識システムは句読点を生成しない。
本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-07-07T08:58:01Z) - Punctuation Restoration [69.97278287534157]
この研究は、ライブストリーミングビデオの書き起こしで句読点を復元する、BehancePRと呼ばれる新しい人間注記コーパスを提示する。
BehancePRに関する我々の実験は、この領域における句読点復元の課題を実証している。
論文 参考訳(メタデータ) (2022-02-19T23:12:57Z) - Joint prediction of truecasing and punctuation for conversational speech
in low-resource scenarios [33.52961239281893]
資本化と句読は、文章や会話の書き起こしを理解するための重要な手がかりである。
多くのASRシステムは、句読点とケースフォーマットの音声書き起こしを生成していない。
本稿では,ケーシングと句読点の関係を利用して予測性能を向上させるマルチタスクシステムを提案する。
論文 参考訳(メタデータ) (2021-09-13T16:25:37Z) - Token-Level Supervised Contrastive Learning for Punctuation Restoration [7.9713449581347104]
句読解は自然言語の文章を理解するのに重要である。
ほとんどの自動音声認識システムは句読点を生成しない。
句読点修復における最近の研究は、事前訓練された言語モデルを大いに活用している。
論文 参考訳(メタデータ) (2021-07-19T18:24:33Z) - Extractive Summarization of Call Transcripts [77.96603959765577]
本稿では, 話題のモデル化と文選択と句読点の復元を併用した母語的手法を提案する。
大規模なテスト,評価,比較により,この要約法の有効性が証明された。
論文 参考訳(メタデータ) (2021-03-19T02:40:59Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。