論文の概要: FullStop:Punctuation and Segmentation Prediction for Dutch with
Transformers
- arxiv url: http://arxiv.org/abs/2301.03319v1
- Date: Mon, 9 Jan 2023 13:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:37:58.338932
- Title: FullStop:Punctuation and Segmentation Prediction for Dutch with
Transformers
- Title(参考訳): FullStop:オランダ語変圧器のゆらぎとセグメンテーション予測
- Authors: Vincent Vandeghinste, Oliver Guhr
- Abstract要約: 現在提案されているモデルは、オランダ語でGuhr et al. (2021) のモデルを拡張したもので、一般に公開されている。
入力シーケンス内のすべての単語に対して、モデルは単語に従う句読点を予測する。
結果は、機械翻訳のベースラインアプローチよりもはるかに優れていることを示している。
- 参考スコア(独自算出の注目度): 1.2246649738388389
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When applying automated speech recognition (ASR) for Belgian Dutch (Van Dyck
et al. 2021), the output consists of an unsegmented stream of words, without
any punctuation. A next step is to perform segmentation and insert punctuation,
making the ASR output more readable and easy to manually correct. As far as we
know there is no publicly available punctuation insertion system for Dutch that
functions at a usable level. The model we present here is an extension of the
models of Guhr et al. (2021) for Dutch and is made publicly available. We
trained a sequence classification model, based on the Dutch language model
RobBERT (Delobelle et al. 2020). For every word in the input sequence, the
models predicts a punctuation marker that follows the word. We have also
extended a multilingual model, for cases where the language is unknown or where
code switching applies. When performing the task of segmentation, the
application of the best models onto out of domain test data, a sliding window
of 200 words of the ASR output stream is sent to the classifier, and
segmentation is applied when the system predicts a segmenting punctuation sign
with a ratio above threshold. Results show to be much better than a machine
translation baseline approach.
- Abstract(参考訳): ベルギーのオランダ語 (van dyck et al. 2021) に自動音声認識 (asr) を適用すると、その出力は句読点のない、意味のない単語のストリームで構成される。
次のステップはセグメンテーションを実行し、句読点を挿入することで、ASR出力をより読みやすく手動で修正しやすくする。
私たちが知る限り、利用可能なレベルで機能するオランダ語の句読点挿入システムは存在しない。
ここで紹介するモデルは、オランダ語でGuhr et al. (2021) のモデルを拡張したもので、一般に公開されている。
オランダ語モデルRobBERT(Delobelle et al. 2020)に基づいてシーケンス分類モデルを訓練した。
入力シーケンス内のすべての単語に対して、モデルは単語に従う句読点を予測する。
また、言語が不明な場合や、コードが切り替えられる場合など、多言語モデルを拡張しました。
セグメンテーションのタスクを行う際には、ドメインテストデータからベストモデルの応用を行い、ASR出力ストリームの200ワードのスライディングウィンドウを分類器に送信し、システムがしきい値以上のセグメンテーション句読点を予測する際にセグメンテーションを適用する。
結果は、機械翻訳のベースラインアプローチよりもはるかに優れていることを示している。
関連論文リスト
- Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring [23.822788597966646]
教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。
具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
論文 参考訳(メタデータ) (2022-02-24T07:02:56Z) - Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文 参考訳(メタデータ) (2021-06-23T18:11:32Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Off-Line Arabic Handwritten Words Segmentation using Morphological
Operators [0.0]
このフレームワークは、前処理、セグメンテーション、評価の3つのステップに基づいて提案される。
提案モデルは、関連作品と比較して最高精度を達成しました。
論文 参考訳(メタデータ) (2021-01-07T23:38:53Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Automatic Machine Translation Evaluation in Many Languages via Zero-Shot
Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。
我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。
我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文 参考訳(メタデータ) (2020-04-30T03:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。