論文の概要: Arabic Text Diacritization In The Age Of Transfer Learning: Token
Classification Is All You Need
- arxiv url: http://arxiv.org/abs/2401.04848v1
- Date: Tue, 9 Jan 2024 23:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:53:57.854478
- Title: Arabic Text Diacritization In The Age Of Transfer Learning: Token
Classification Is All You Need
- Title(参考訳): 転校学習時代のアラビア語テキスト読取:トークン分類は必要なすべて
- Authors: Abderrahman Skiredj, Ismail Berrada
- Abstract要約: 本稿では,アラビア文字発音タスクの新しい2段階アプローチであるPTCAD(Pre-FineTuned Token Classification for Arabic Diacritization)を紹介する。
PTCADは、事前訓練されたモデルのトークン分類タスクとしてアラビア文字発音処理を扱い、ファインタニングフェーズとファインタニングフェーズから構成される。
既存のベンチマークと比較してワードエラー率(WER)が20%削減され、ATDタスクのGPT-4よりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 4.731947770462531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic diacritization of Arabic text involves adding diacritical marks
(diacritics) to the text. This task poses a significant challenge with
noteworthy implications for computational processing and comprehension. In this
paper, we introduce PTCAD (Pre-FineTuned Token Classification for Arabic
Diacritization, a novel two-phase approach for the Arabic Text Diacritization
task. PTCAD comprises a pre-finetuning phase and a finetuning phase, treating
Arabic Text Diacritization as a token classification task for pre-trained
models. The effectiveness of PTCAD is demonstrated through evaluations on two
benchmark datasets derived from the Tashkeela dataset, where it achieves
state-of-the-art results, including a 20\% reduction in Word Error Rate (WER)
compared to existing benchmarks and superior performance over GPT-4 in ATD
tasks.
- Abstract(参考訳): アラビア語のテキストの自動ダイアクリティカル化には、テキストにダイアクリティカルマーク(ダイアクリティカルマーク)を追加することが含まれる。
このタスクは、計算処理と理解に注目すべき意味を持つ重要な課題をもたらす。
本稿では,アラビア文字発音タスクの新しい2段階アプローチであるPTCAD(Pre-FineTuned Token Classification for Arabic Diacritization)を紹介する。
PTCADは、事前訓練されたモデルのトークン分類タスクとしてアラビア文字発音処理を扱い、ファインタニングフェーズとファインタニングフェーズから構成される。
PTCADの有効性は、Tashkeelaデータセットから得られた2つのベンチマークデータセットで評価され、既存のベンチマークに比べてワードエラー率(WER)が20倍減少し、ATDタスクにおいてGPT-4よりも優れたパフォーマンスを示す。
関連論文リスト
- Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [23.14419851509905]
言語間の時間的相互要約は、文化間のアクセシビリティと理解を改善する可能性がある。
われわれはCLCTSコーパスを初めて構築し、英語とドイツ語の歴史的文章とウィキペディアの要約を活用している。
本稿では,人間,ChatGPT,および最近の自動評価指標について報告する。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。
私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。
事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文 参考訳(メタデータ) (2023-03-15T23:45:54Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - On Sensitivity of Deep Learning Based Text Classification Algorithms to
Practical Input Perturbations [0.0]
深層学習に基づくテキスト分類モデルの性能に及ぼす系統的な実践的摂動の影響を評価する。
摂動は、句読や停止語のような望ましくないトークンの追加と削除によって引き起こされる。
BERTを含むこれらの深層学習アプローチは、4つの標準ベンチマークデータセットにおいて、そのような正当な入力摂動に敏感であることを示す。
論文 参考訳(メタデータ) (2022-01-02T08:33:49Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - CXP949 at WNUT-2020 Task 2: Extracting Informative COVID-19 Tweets --
RoBERTa Ensembles and The Continued Relevance of Handcrafted Features [0.6980076213134383]
本稿では,ノイズの多いユーザ生成テキストに関するワークショップ第2号に提案する。
アンサンブル実装によるテキスト分類のための訓練済み言語モデルの性能改善について検討する。
追加機能を含めることで、分類結果が改善され、トップパフォーマンスチームの2ポイント以内のスコアが得られます。
論文 参考訳(メタデータ) (2020-10-15T19:12:52Z) - OSACT4 Shared Task on Offensive Language Detection: Intensive
Preprocessing-Based Approach [0.0]
本研究では,前処理フェーズがアラビア文字のテキスト分類に与える影響について検討する。
ソーシャルメディアで使われるアラビア語は非公式であり、アラビア語の方言を用いて書かれており、テキスト分類作業は非常に複雑である。
集中的な前処理に基づくアプローチは、攻撃的な言語検出とヘイトスピーチ検出に大きな影響を与えることを示す。
論文 参考訳(メタデータ) (2020-05-14T23:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。