Fugu-MT 論文翻訳(概要): Automatic punctuation restoration with BERT models

論文の概要: Automatic punctuation restoration with BERT models

arxiv url: http://arxiv.org/abs/2101.07343v1
Date: Mon, 18 Jan 2021 22:13:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-27 07:00:12.619929
Title: Automatic punctuation restoration with BERT models
Title（参考訳）: BERTモデルによる自動句読点復元
Authors: Attila Nagy, Bence Bial, Judit \'Acs
Abstract要約: 英語とハンガリー語のためのBERTモデルを用いた自動句読点修復のアプローチを提案する。ハンガリー語ではSzeged Treebankデータセットでモデルを評価する一方、英語では句読点復元のための一般的なベンチマークであるTed Talksで実験を行う。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present an approach for automatic punctuation restoration with BERT models for English and Hungarian. For English, we conduct our experiments on Ted Talks, a commonly used benchmark for punctuation restoration, while for Hungarian we evaluate our models on the Szeged Treebank dataset. Our best models achieve a macro-averaged $F_1$-score of 79.8 in English and 82.2 in Hungarian. Our code is publicly available.
Abstract（参考訳）: 本稿では,英語とハンガリー語に対するBERTモデルを用いた自動句読点復元手法を提案する。ハンガリー語ではSzeged Treebankデータセットでモデルを評価する一方、英語では句読点復元のための一般的なベンチマークであるTed Talksで実験を行った。我々の最良のモデルは、英語で79.8ドル、ハンガリー語で82.2ドルのマクロ平均$F_1$スコアを達成する。私たちのコードは公開されています。

関連論文リスト

Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。 RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文参考訳（メタデータ） (2025-05-25T23:06:20Z)
BBPOS: BERT-based Part-of-Speech Tagging for Uzbek [1.8749305679160366]
本稿では,未検証の単言語 Uzbek BERT モデルについて,POS タグ付けタスク上で評価することにより,低リソースな Uzbek 言語に対する NLP 研究を進展させる。我々の微調整モデルでは平均91%の精度が得られ、ベースラインの多言語BERTやルールベースのタグよりも優れています。
論文参考訳（メタデータ） (2025-01-17T10:50:22Z)
New keypoint-based approach for recognising British Sign Language (BSL) from sequences [53.397276621815614]
本稿では,イギリス手話(BSL)単語を連続署名シーケンス内で認識するキーポイントに基づく新しい分類モデルを提案する。我々のモデルの性能はBOBSLデータセットを用いて評価され、キーポイントベースのアプローチが計算効率とメモリ使用量においてRGBベースのアプローチを上回ることが判明した。
論文参考訳（メタデータ） (2024-12-12T17:20:27Z)
AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文参考訳（メタデータ） (2024-07-11T10:03:47Z)
Synthetic Dataset Creation and Fine-Tuning of Transformer Models for Question Answering in Serbian [0.0]
我々は、SQuAD-srという名前の87K以上のサンプルからなるセルビア最大のQAデータセットを作成します。セルビア語でスクリプトの双対性を認めるために、我々はデータセットのキリル文字版とラテン文字版の両方を生成した。最高の結果は、私たちのラテンSQuAD-srデータセット上でBERTi'cモデルを微調整し、73.91%のExact Matchと82.97%のF1スコアを得たことである。
論文参考訳（メタデータ） (2024-04-12T17:27:54Z)
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。 2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文参考訳（メタデータ） (2024-04-11T15:27:22Z)
The Death of Feature Engineering? BERT with Linguistic Features on SQuAD 2.0 [16.95168095046929]
BERTと追加の言語的特徴を取り入れたエンドツーエンドの質問応答モデルを開発した。 EMスコアとF1スコアはBERT(base)と比較して2.17と2.14が改善される
論文参考訳（メタデータ） (2024-04-04T03:50:34Z)
Repetition Improves Language Model Embeddings [68.92976440181387]
本稿では,2回入力を繰り返して,2回目以降の埋め込みを抽出する「echo Embeddings」を提案する。 MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
論文参考訳（メタデータ） (2024-02-23T17:25:10Z)
Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文参考訳（メタデータ） (2023-05-28T13:19:12Z)
FullStop:Punctuation and Segmentation Prediction for Dutch with Transformers [1.2246649738388389]
現在提案されているモデルは、オランダ語でGuhr et al. (2021) のモデルを拡張したもので、一般に公開されている。入力シーケンス内のすべての単語に対して、モデルは単語に従う句読点を予測する。結果は、機械翻訳のベースラインアプローチよりもはるかに優れていることを示している。
論文参考訳（メタデータ） (2023-01-09T13:12:05Z)
BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。 Transformerに基づいて、いくつかの有効な変種を適用します。本システムでは,0.810と0.946のCOMETスコアを達成している。
論文参考訳（メタデータ） (2022-11-28T02:35:04Z)
Syntax-based data augmentation for Hungarian-English machine translation [0.0]
我々は、Hunglish2コーパスを使用して、ハンガリー語と英語のハンガリー語に対するトランスフォーマーベースのニューラルマシン翻訳モデルを訓練する。我々の最良のモデルは、ハンガリー語で40.0点、英語とハンガリー語で33.4点のBLEUスコアを得る。
論文参考訳（メタデータ） (2022-01-18T11:13:56Z)
Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文参考訳（メタデータ） (2020-10-13T03:25:15Z)
Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。 BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2020-04-24T23:32:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。