論文の概要: Automatic punctuation restoration with BERT models
- arxiv url: http://arxiv.org/abs/2101.07343v1
- Date: Mon, 18 Jan 2021 22:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 07:00:12.619929
- Title: Automatic punctuation restoration with BERT models
- Title(参考訳): BERTモデルによる自動句読点復元
- Authors: Attila Nagy, Bence Bial, Judit \'Acs
- Abstract要約: 英語とハンガリー語のためのBERTモデルを用いた自動句読点修復のアプローチを提案する。
ハンガリー語ではSzeged Treebankデータセットでモデルを評価する一方、英語では句読点復元のための一般的なベンチマークであるTed Talksで実験を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an approach for automatic punctuation restoration with BERT models
for English and Hungarian. For English, we conduct our experiments on Ted
Talks, a commonly used benchmark for punctuation restoration, while for
Hungarian we evaluate our models on the Szeged Treebank dataset. Our best
models achieve a macro-averaged $F_1$-score of 79.8 in English and 82.2 in
Hungarian. Our code is publicly available.
- Abstract(参考訳): 本稿では,英語とハンガリー語に対するBERTモデルを用いた自動句読点復元手法を提案する。
ハンガリー語ではSzeged Treebankデータセットでモデルを評価する一方、英語では句読点復元のための一般的なベンチマークであるTed Talksで実験を行った。
我々の最良のモデルは、英語で79.8ドル、ハンガリー語で82.2ドルのマクロ平均$F_1$スコアを達成する。
私たちのコードは公開されています。
関連論文リスト
- Repetition Improves Language Model Embeddings [68.92976440181387]
本稿では,2回入力を繰り返して,2回目以降の埋め込みを抽出する「echo Embeddings」を提案する。
MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
論文 参考訳(メタデータ) (2024-02-23T17:25:10Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - FullStop:Punctuation and Segmentation Prediction for Dutch with
Transformers [1.2246649738388389]
現在提案されているモデルは、オランダ語でGuhr et al. (2021) のモデルを拡張したもので、一般に公開されている。
入力シーケンス内のすべての単語に対して、モデルは単語に従う句読点を予測する。
結果は、機械翻訳のベースラインアプローチよりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2023-01-09T13:12:05Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Syntax-based data augmentation for Hungarian-English machine translation [0.0]
我々は、Hunglish2コーパスを使用して、ハンガリー語と英語のハンガリー語に対するトランスフォーマーベースのニューラルマシン翻訳モデルを訓練する。
我々の最良のモデルは、ハンガリー語で40.0点、英語とハンガリー語で33.4点のBLEUスコアを得る。
論文 参考訳(メタデータ) (2022-01-18T11:13:56Z) - Re-Evaluating GermEval17 Using German Pre-Trained Language Models [0.0]
GermEval17ワークショップの4つの課題に対して,ドイツ語および多言語BERTモデルの性能評価を行った。
観察された改善がドイツ語または潜在的に他の関連言語に転送可能であるかどうかに関する暫定的な結論を導きます。
論文 参考訳(メタデータ) (2021-02-24T15:05:56Z) - Dartmouth CS at WNUT-2020 Task 2: Informative COVID-19 Tweet
Classification Using BERT [2.1574781022415364]
我々は、WNUT-2020共有タスク2のために開発されたシステムについて説明します。
BERTは自然言語処理タスクのための高性能なモデルです。
我々は、BERTを微調整し、その埋め込みとつぶやき固有の特徴を結合することにより、この分類タスクにおけるBERTのパフォーマンスを向上した。
論文 参考訳(メタデータ) (2020-12-07T07:55:31Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。