論文の概要: CATT: Character-based Arabic Tashkeel Transformer
- arxiv url: http://arxiv.org/abs/2407.03236v3
- Date: Sun, 14 Jul 2024 10:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 23:47:24.006543
- Title: CATT: Character-based Arabic Tashkeel Transformer
- Title(参考訳): CATT:文字ベースのアラビア・タシュキール変換器
- Authors: Faris Alasmary, Orjuwan Zaafarani, Ahmad Ghannam,
- Abstract要約: タシュケル(Tashkeel)は、アラビア語のテキストの理解を大幅に強化する。
本稿では,ATDモデルのトレーニングに新たなアプローチを提案する。
11の商用およびオープンソースモデルとともに、当社のモデルを評価します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tashkeel, or Arabic Text Diacritization (ATD), greatly enhances the comprehension of Arabic text by removing ambiguity and minimizing the risk of misinterpretations caused by its absence. It plays a crucial role in improving Arabic text processing, particularly in applications such as text-to-speech and machine translation. This paper introduces a new approach to training ATD models. First, we finetuned two transformers, encoder-only and encoder-decoder, that were initialized from a pretrained character-based BERT. Then, we applied the Noisy-Student approach to boost the performance of the best model. We evaluated our models alongside 11 commercial and open-source models using two manually labeled benchmark datasets: WikiNews and our CATT dataset. Our findings show that our top model surpasses all evaluated models by relative Diacritic Error Rates (DERs) of 30.83\% and 35.21\% on WikiNews and CATT, respectively, achieving state-of-the-art in ATD. In addition, we show that our model outperforms GPT-4-turbo on CATT dataset by a relative DER of 9.36\%. We open-source our CATT models and benchmark dataset for the research community\footnote{https://github.com/abjadai/catt}.
- Abstract(参考訳): タシュケル (Tashkeel) は、曖昧さを排除し、その欠如による誤解釈のリスクを最小限にすることで、アラビア語テキストの理解を大幅に強化する。
アラビア文字処理、特にテキスト音声翻訳や機械翻訳などの応用において重要な役割を担っている。
本稿では,ATDモデルのトレーニングに新たなアプローチを提案する。
まず、予め訓練された文字ベースBERTから初期化したエンコーダオンリーとエンコーダデコーダの2つのトランスを微調整した。
そして、最良のモデルの性能を高めるためにノイズ・スチューデント・アプローチを適用した。
我々は、WikiNewsとCATTデータセットという2つの手動ラベル付きベンチマークデータセットを使用して、11の商用およびオープンソースモデルと共にモデルを評価した。
以上の結果から,本モデルがWikiNews と CATT でそれぞれ 30.83 % と 35.21 % の相対的ダイアクリティカルエラー率 (DERs) で評価された全てのモデルを上回る結果を得た。
さらに,本モデルでは,CATTデータセットのGPT-4-turboを9.36\%の相対DDERで上回る性能を示した。
私たちはCATTモデルとベンチマークデータセットをオープンソースとして公開しています。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Coupling Speech Encoders with Downstream Text Models [4.679869237248675]
カスケード音声翻訳モデルを構築するためのモジュラー手法を提案する。
我々は,与えられたタスクに対して,最先端音声認識(ASR)とテキスト翻訳(MT)の性能を維持する。
論文 参考訳(メタデータ) (2024-07-24T19:29:13Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Specializing Small Language Models towards Complex Style Transfer via
Latent Attribute Pre-Training [29.143887057933327]
複雑なテキストスタイルの転送タスクの概念を導入し、2つの広く適用可能なシナリオに基づいて複雑なテキストデータセットを構築した。
我々のデータセットは、ゲームGenshin Impactの700文と1000文からなる、この種の最初の大規模データセットである。
論文 参考訳(メタデータ) (2023-09-19T21:01:40Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking
BERT Sentence Representations for Hindi and Marathi [0.7874708385247353]
この研究は、ヒンディー語とマラティ語という2つの低リソースのインドの言語に焦点を当てている。
機械翻訳を用いた合成NLIとSTSデータセットを用いて,これらの言語のための文-BERTモデルを訓練する。
我々は,NLI事前学習とSTSbファインチューニングの戦略が,ヒンディー語とマラタイ語の文類似性モデルの生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-21T05:15:48Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。