論文の概要: Punctuation restoration in Swedish through fine-tuned KB-BERT
- arxiv url: http://arxiv.org/abs/2202.06769v1
- Date: Mon, 14 Feb 2022 14:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:10:48.884068
- Title: Punctuation restoration in Swedish through fine-tuned KB-BERT
- Title(参考訳): 微調整KB-BERTによるスウェーデンの句読解
- Authors: John Bj\"orkman Nilsson
- Abstract要約: KB-BERTは、スウェーデンのコーパスで事前トレーニングされたニューラルネットワーク言語モデルである。
下段のケースと未定のスウェーデン語のテキストを入力として、モデルは文法的に正しい句読まれたテキストのコピーを出力として返すことになっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Presented here is a method for automatic punctuation restoration in Swedish
using a BERT model. The method is based on KB-BERT, a publicly available,
neural network language model pre-trained on a Swedish corpus by National
Library of Sweden. This model has then been fine-tuned for this specific task
using a corpus of government texts. With a lower-case and unpunctuated Swedish
text as input, the model is supposed to return a grammatically correct
punctuated copy of the text as output. A successful solution to this problem
brings benefits for an array of NLP domains, such as speech-to-text and
automated text. Only the punctuation marks period, comma and question marks
were considered for the project, due to a lack of data for more rare marks such
as semicolon. Additionally, some marks are somewhat interchangeable with the
more common, such as exclamation points and periods. Thus, the data set had all
exclamation points replaced with periods. The fine-tuned Swedish BERT model,
dubbed prestoBERT, achieved an overall F1-score of 78.9. The proposed model
scored similarly to international counterparts, with Hungarian and Chinese
models obtaining F1-scores of 82.2 and 75.6 respectively. As further
comparison, a human evaluation case study was carried out. The human test group
achieved an overall F1-score of 81.7, but scored substantially worse than
prestoBERT on both period and comma. Inspecting output sentences from the model
and humans show satisfactory results, despite the difference in F1-score. The
disconnect seems to stem from an unnecessary focus on replicating the exact
same punctuation used in the test set, rather than providing any of the number
of correct interpretations. If the loss function could be rewritten to reward
all grammatically correct outputs, rather than only the one original example,
the performance could improve significantly for both prestoBERT and the human
group.
- Abstract(参考訳): ここでは, bertモデルを用いたスウェーデン語句読点の自動復元について述べる。
KB-BERTは、スウェーデン国立図書館によってスウェーデンのコーパスで事前訓練された、公開されているニューラルネットワーク言語モデルである。
このモデルは、政府のテキストのコーパスを使用して、この特定のタスクのために微調整された。
下段のケースと未定のスウェーデン語テキストを入力として、モデルは文法的に正しい句読まれたテキストのコピーを出力として返す。
この問題に対するソリューションの成功は、音声テキストや自動テキストなど、NLPドメインの配列にメリットをもたらす。
セミコロンのようなより稀なマークのデータが不足していたため、プロジェクトのために句読点、コンマ、質問マークのみが検討された。
さらに、いくつかのマークは、exlamation point や periods など、より一般的なマークと幾らか交換可能である。
したがって、データセットはすべての宣言点を周期に置き換えた。
プレストバート(PrestoBERT)と呼ばれるスウェーデン製BERTは、F1スコア全体の78.9を記録した。
提案されたモデルは国際的なモデルと同様で、ハンガリーと中国のモデルはそれぞれ82.2と75.6のF1スコアを獲得した。
さらに,人間評価事例の検討を行った。
ヒトの試験群は全体のf1-scoreを81.7で達成したが、prestobertよりもかなり低得点であった。
F1スコアの違いにもかかわらず、モデルと人間の出力文を検査すると満足な結果が得られる。
切断は、正しい解釈の数を提供するのではなく、テストセットで使われる全く同じ句読点を複製することに集中しているように思われる。
損失関数を書き換えてすべての文法的に正しい出力を報いることができれば、最初の1つの例よりも、PrestoBERTと人間グループの両方でパフォーマンスが大幅に向上する可能性がある。
関連論文リスト
- Punctuation Prediction for Polish Texts using Transformers [0.7252027234425334]
本稿では, 71.44 重み付き F1 のポーランド語テキストに対する Punctuation Prediction for Polleval 2022 Task 1 の解について述べる。
この方法は、競合データと外部データセットに微調整された1つのHerBERTモデルを利用する。
論文 参考訳(メタデータ) (2024-10-06T20:51:02Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - FullStop:Punctuation and Segmentation Prediction for Dutch with
Transformers [1.2246649738388389]
現在提案されているモデルは、オランダ語でGuhr et al. (2021) のモデルを拡張したもので、一般に公開されている。
入力シーケンス内のすべての単語に対して、モデルは単語に従う句読点を予測する。
結果は、機械翻訳のベースラインアプローチよりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2023-01-09T13:12:05Z) - Punctuation Restoration for Singaporean Spoken Languages: English,
Malay, and Mandarin [0.0]
本稿では,多言語 ASR システムにより生成された ASR 転写文の句読点復元作業について述べる。
英語、マンダリン語、マレー語がシンガポールで最も人気のある言語である。
我々の知る限りでは、これら3つの言語の句読点復元を同時に行うことができる最初のシステムである。
論文 参考訳(メタデータ) (2022-12-10T19:54:53Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - IIT_kgp at FinCausal 2020, Shared Task 1: Causality Detection using
Sentence Embeddings in Financial Reports [0.0]
この研究は、文中の因果関係を識別する最初のサブタスクと関連付けられている。
BERT (Large) は、財務文書や報告書の文の因果性を検出するタスクにおいて、F1スコア0.958を与えられた。
論文 参考訳(メタデータ) (2020-11-16T00:57:14Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - Unsupervised Parsing via Constituency Tests [49.42244463346612]
本稿では,選挙区検定の言語的概念に基づく教師なし解析手法を提案する。
文を与えられた木を生成するために,各木をその選挙区試験判定値の集計によりスコアし,最大スコアの2進木を選択する。
洗練されたモデルはPenn Treebankテストセット上で62.8 F1を達成する。
論文 参考訳(メタデータ) (2020-10-07T04:05:01Z) - Efficient Constituency Parsing by Pointing [21.395573911155495]
本稿では,解析問題を一連のポインティングタスクにキャストする新しい選挙区解析モデルを提案する。
我々のモデルは効率的なトップダウンデコーディングをサポートしており、我々の学習目的は、高価なCKY推論に頼ることなく、構造的一貫性を強制することができる。
論文 参考訳(メタデータ) (2020-06-24T08:29:09Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。