論文の概要: Capitalization and Punctuation Restoration: a Survey
- arxiv url: http://arxiv.org/abs/2111.10746v1
- Date: Sun, 21 Nov 2021 05:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:27:25.968209
- Title: Capitalization and Punctuation Restoration: a Survey
- Title(参考訳): 資本化と再生 : アンケート調査より
- Authors: Vasile P\u{a}i\c{s}, Dan Tufi\c{s}
- Abstract要約: 適切な句読点と文字のケーシングを保証することは、複雑な自然言語処理アルゴリズムを適用するための重要な前処理ステップである。
短いテキストメッセージとマイクロブログプラットフォームは、信頼性が低く、しばしば誤った句読とケーシングを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring proper punctuation and letter casing is a key pre-processing step
towards applying complex natural language processing algorithms. This is
especially significant for textual sources where punctuation and casing are
missing, such as the raw output of automatic speech recognition systems.
Additionally, short text messages and micro-blogging platforms offer unreliable
and often wrong punctuation and casing. This survey offers an overview of both
historical and state-of-the-art techniques for restoring punctuation and
correcting word casing. Furthermore, current challenges and research directions
are highlighted.
- Abstract(参考訳): 適切な句読と文字のケーシングを保証することは、複雑な自然言語処理アルゴリズムを適用するための重要な前処理ステップである。
これは、自動音声認識システムの生出力など、句読点やケーシングが欠落しているテキストソースにおいて特に重要である。
さらに、短いテキストメッセージとマイクロブログプラットフォームは、信頼できず、しばしば間違った句読点とケーシングを提供する。
本調査は,句読点の復元と単語の字幕の修正のための歴史技術と最先端技術の両方について概説する。
さらに、現在の課題や研究の方向性も強調されている。
関連論文リスト
- Misspellings in Natural Language Processing: A survey [52.419589623702336]
デジタル通信では ミススペルがユビキタスになりました
我々は科学的な問題としてミススペルの歴史を再構築する。
NLPにおけるミススペル問題に対処するための最新の進歩について論じる。
論文 参考訳(メタデータ) (2025-01-28T10:26:04Z) - Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。
本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。
人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-01-07T14:17:47Z) - TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation [0.08602553195689511]
本研究では,コネクショニスト時間分類(CTC)の損失を学習したチャンクベースのトランスフォーマーエンコーダを用いて,入力音声から句読影テキストを予測する手法を提案する。
チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
論文 参考訳(メタデータ) (2023-06-02T06:46:14Z) - End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。
従来の自動音声認識システムは句読点を生成しない。
本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-07-07T08:58:01Z) - Joint prediction of truecasing and punctuation for conversational speech
in low-resource scenarios [33.52961239281893]
資本化と句読は、文章や会話の書き起こしを理解するための重要な手がかりである。
多くのASRシステムは、句読点とケースフォーマットの音声書き起こしを生成していない。
本稿では,ケーシングと句読点の関係を利用して予測性能を向上させるマルチタスクシステムを提案する。
論文 参考訳(メタデータ) (2021-09-13T16:25:37Z) - Token-Level Supervised Contrastive Learning for Punctuation Restoration [7.9713449581347104]
句読解は自然言語の文章を理解するのに重要である。
ほとんどの自動音声認識システムは句読点を生成しない。
句読点修復における最近の研究は、事前訓練された言語モデルを大いに活用している。
論文 参考訳(メタデータ) (2021-07-19T18:24:33Z) - Extractive Summarization of Call Transcripts [77.96603959765577]
本稿では, 話題のモデル化と文選択と句読点の復元を併用した母語的手法を提案する。
大規模なテスト,評価,比較により,この要約法の有効性が証明された。
論文 参考訳(メタデータ) (2021-03-19T02:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。