Fugu-MT 論文翻訳(概要): Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization

論文の概要: Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization

arxiv url: http://arxiv.org/abs/2303.14588v1
Date: Sat, 25 Mar 2023 23:41:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 18:46:05.105026
Title: Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization
Title（参考訳）: Fine-Tashkeel: 正確なアラビア文字発音のためのByte-Levelモデル
Authors: Bashar Al-Rfooh, Gheith Abandah, Rami Al-Rfou
Abstract要約: トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
参考スコア（独自算出の注目度）: 10.342180619706724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most of previous work on learning diacritization of the Arabic language relied on training models from scratch. In this paper, we investigate how to leverage pre-trained language models to learn diacritization. We finetune token-free pre-trained multilingual models (ByT5) to learn to predict and insert missing diacritics in Arabic text, a complex task that requires understanding the sentence semantics and the morphological structure of the tokens. We show that we can achieve state-of-the-art on the diacritization task with minimal amount of training and no feature engineering, reducing WER by 40%. We release our finetuned models for the greater benefit of the researchers in the community.
Abstract（参考訳）: アラビア語の発音の学習に関する以前の研究のほとんどは、スクラッチからトレーニングモデルに頼っていた。本稿では,事前学習された言語モデルの活用法について検討する。アラビア語のテキストに欠落しているダイアクリティカルスの予測と挿入を学ぶために,トークンのない事前学習された多言語モデル(byt5)を微調整する。我々は、最小限の訓練量と機能工学を伴わずに、診断タスクの最先端を達成できることを示し、WERを40%削減する。私たちは、コミュニティの研究者のより大きな利益のために、微調整されたモデルをリリースします。

関連論文リスト

Sadeed: Advancing Arabic Diacritization Through Small Language Model [0.0]
Sadeedはアラビア語の発音のための新しいデコーダのみの言語モデルである。 Sadeedは、厳格なデータクリーニングと正規化パイプラインを通じて構築された、慎重にキュレートされた高品質なダイアグラム化されたデータセットに微調整されている。 SadeedDiac-25は、さまざまなテキストジャンルや複雑性レベルに対して、より公平で包括的な評価を可能にするために設計された、新しいベンチマークである。
論文参考訳（メタデータ） (2025-04-30T13:37:24Z)
Parameter and Data Efficient Continual Pre-training for Robustness to Dialectal Variance in Arabic [9.004920233490642]
多言語BERT(mBERT)がアラビア語単言語データに漸進的に事前訓練されることは、トレーニング時間が少なく、我々のカスタム単言語単言語モデルと比較すると、同等の精度が得られることを示す。次に,(1)少数の方言データを用いて連続的な微調整を行い,(2)アラビア語から英語への平行なデータと翻訳言語モデリング損失関数を探索する。
論文参考訳（メタデータ） (2022-11-08T02:51:57Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文参考訳（メタデータ） (2022-04-19T12:01:46Z)
Supporting Undotted Arabic with Pre-trained Language Models [0.0]
本研究では,事前学習したアラビア語モデルを適用したアラビア語の「未収録」テキストに対する効果について検討する。そこで本研究では,事前学習したモデルを用いて未分類のテキストをサポートする方法をいくつか提案し,その性能を2つのアラビア自然言語処理タスクで測定する。
論文参考訳（メタデータ） (2021-11-18T16:47:56Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文参考訳（メタデータ） (2021-09-09T18:58:14Z)
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文参考訳（メタデータ） (2021-04-15T02:36:49Z)
AraELECTRA: Pre-Training Text Discriminators for Arabic Language Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。 AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文参考訳（メタデータ） (2020-12-31T09:35:39Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文参考訳（メタデータ） (2020-04-29T14:07:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。