論文の概要: Vietnamese Capitalization and Punctuation Recovery Models
- arxiv url: http://arxiv.org/abs/2207.01312v1
- Date: Mon, 4 Jul 2022 10:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 00:09:45.386186
- Title: Vietnamese Capitalization and Punctuation Recovery Models
- Title(参考訳): ベトナムの資本化と句読点回復モデル
- Authors: Hoang Thi Thu Uyen, Nguyen Anh Tu and Ta Duc Huy
- Abstract要約: 原文入力のための前処理パイプラインでは、資本化と句読点復元が不可欠である。
本稿では,ベトナムにおける資本化と句読点回復のためのパブリックデータセットを提案し,ジョイントCapPuncという2つのタスクのジョイントモデルを提案する。
ベトナムのデータセットを用いた実験結果から,我々の関節モデルの有効性が単一モデルと過去の関節学習モデルと比較された。
- 参考スコア(独自算出の注目度): 1.9981375888949475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rise of recent performant methods in Automatic Speech Recognition
(ASR), such methods do not ensure proper casing and punctuation for their
outputs. This problem has a significant impact on the comprehension of both
Natural Language Processing (NLP) algorithms and human to process.
Capitalization and punctuation restoration is imperative in pre-processing
pipelines for raw textual inputs. For low resource languages like Vietnamese,
public datasets for this task are scarce. In this paper, we contribute a public
dataset for capitalization and punctuation recovery for Vietnamese; and propose
a joint model for both tasks named JointCapPunc. Experimental results on the
Vietnamese dataset show the effectiveness of our joint model compare to single
model and previous joint learning model. We publicly release our dataset and
the implementation of our model at
https://github.com/anhtunguyen98/JointCapPunc
- Abstract(参考訳): 近年のASR(Automatic Speech Recognition)における性能評価手法の台頭にもかかわらず、これらの手法は出力に対する適切なケーシングと句読点を保証するものではない。
この問題は、自然言語処理(nlp)アルゴリズムと人間の処理の両方の理解に重大な影響を与えている。
原文入力の事前処理パイプラインでは,大文字化と句読点復元が不可欠である。
ベトナムのような低リソース言語では、このタスクの公開データセットは少ない。
本稿では,ベトナムにおける資本化と句読点回復のためのパブリックデータセットを提案し,ジョイントCapPuncという2つのタスクのジョイントモデルを提案する。
ベトナムのデータセットを用いた実験結果から,我々の関節モデルの有効性が単一モデルと過去の関節学習モデルと比較された。
私たちはデータセットとモデルの実装をhttps://github.com/anhtunguyen98/JointCapPuncで公開しています。
関連論文リスト
- Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Analyzing Vietnamese Legal Questions Using Deep Neural Networks with
Biaffine Classifiers [3.116035935327534]
我々は深層ニューラルネットワークを用いてベトナムの法的問題から重要な情報を抽出することを提案する。
自然言語で法的疑問が与えられた場合、その疑問に答えるために必要な情報を含む全てのセグメントを抽出することが目的である。
論文 参考訳(メタデータ) (2023-04-27T18:19:24Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Learning Better Sentence Representation with Syntax Information [0.0]
構文情報と予め訓練された言語モデルを組み合わせるための新しいアプローチを提案する。
本モデルは91.2%の精度を達成し, 文完成作業では37.8%の精度でベースラインモデルを上回った。
論文 参考訳(メタデータ) (2021-01-09T12:15:08Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Improving Vietnamese Named Entity Recognition from Speech Using Word
Capitalization and Punctuation Recovery Models [2.9538906120661172]
名前付きエンティティ認識(NER)タスクの研究は、入力テキスト上で人間のパリティに達する優れた結果を示している。
NERタスクのためのベトナム語音声データセットとベトナム語のための大規模な言語モデルについて述べる。
本研究では,音声からNERタスクのための新しいパイプラインを提案する。このパイプラインにテキスト大文字化・句読解モデル(CaPu)を導入することで,テキストフォーマッティングの問題を克服する。
論文 参考訳(メタデータ) (2020-10-01T05:21:32Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。