論文の概要: Punctuation Prediction for Polish Texts using Transformers
- arxiv url: http://arxiv.org/abs/2410.04621v1
- Date: Sun, 6 Oct 2024 20:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:26:32.354382
- Title: Punctuation Prediction for Polish Texts using Transformers
- Title(参考訳): 変圧器を用いたポーランド語文の句読解予測
- Authors: Jakub Pokrywka,
- Abstract要約: 本稿では, 71.44 重み付き F1 のポーランド語テキストに対する Punctuation Prediction for Polleval 2022 Task 1 の解について述べる。
この方法は、競合データと外部データセットに微調整された1つのHerBERTモデルを利用する。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech recognition systems typically output text lacking punctuation. However, punctuation is crucial for written text comprehension. To tackle this problem, Punctuation Prediction models are developed. This paper describes a solution for Poleval 2022 Task 1: Punctuation Prediction for Polish Texts, which scores 71.44 Weighted F1. The method utilizes a single HerBERT model finetuned to the competition data and an external dataset.
- Abstract(参考訳): 音声認識システムは典型的には句読点を欠いたテキストを出力する。
しかし、文章の理解には句読点が不可欠である。
この問題に対処するため,句読影予測モデルを開発した。
本稿では, 71.44 重み付き F1 のポーランド語テキストに対する Punctuation Prediction for Polleval 2022 Task 1 の解について述べる。
この方法は、競合データと外部データセットに微調整された1つのHerBERTモデルを利用する。
関連論文リスト
- LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation [0.08602553195689511]
本研究では,コネクショニスト時間分類(CTC)の損失を学習したチャンクベースのトランスフォーマーエンコーダを用いて,入力音声から句読影テキストを予測する手法を提案する。
チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
論文 参考訳(メタデータ) (2023-06-02T06:46:14Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。
従来の自動音声認識システムは句読点を生成しない。
本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-07-07T08:58:01Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Punctuation restoration in Swedish through fine-tuned KB-BERT [0.0]
KB-BERTは、スウェーデンのコーパスで事前トレーニングされたニューラルネットワーク言語モデルである。
下段のケースと未定のスウェーデン語のテキストを入力として、モデルは文法的に正しい句読まれたテキストのコピーを出力として返すことになっている。
論文 参考訳(メタデータ) (2022-02-14T14:39:40Z) - Improving Punctuation Restoration for Speech Transcripts via External
Data [1.4335946386597276]
ノイズのあるテキストに特化して句読解問題に取り組む。
我々は、n-gram言語モデルに基づくデータサンプリング手法を導入し、より多くのトレーニングデータをサンプリングする。
提案手法は1:12%のF1スコアでベースラインを上回っている。
論文 参考訳(メタデータ) (2021-10-01T17:40:55Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Token-Level Supervised Contrastive Learning for Punctuation Restoration [7.9713449581347104]
句読解は自然言語の文章を理解するのに重要である。
ほとんどの自動音声認識システムは句読点を生成しない。
句読点修復における最近の研究は、事前訓練された言語モデルを大いに活用している。
論文 参考訳(メタデータ) (2021-07-19T18:24:33Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。