論文の概要: Arabic Text Diacritization In The Age Of Transfer Learning: Token
Classification Is All You Need
- arxiv url: http://arxiv.org/abs/2401.04848v1
- Date: Tue, 9 Jan 2024 23:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:53:57.854478
- Title: Arabic Text Diacritization In The Age Of Transfer Learning: Token
Classification Is All You Need
- Title(参考訳): 転校学習時代のアラビア語テキスト読取:トークン分類は必要なすべて
- Authors: Abderrahman Skiredj, Ismail Berrada
- Abstract要約: 本稿では,アラビア文字発音タスクの新しい2段階アプローチであるPTCAD(Pre-FineTuned Token Classification for Arabic Diacritization)を紹介する。
PTCADは、事前訓練されたモデルのトークン分類タスクとしてアラビア文字発音処理を扱い、ファインタニングフェーズとファインタニングフェーズから構成される。
既存のベンチマークと比較してワードエラー率(WER)が20%削減され、ATDタスクのGPT-4よりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 4.731947770462531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic diacritization of Arabic text involves adding diacritical marks
(diacritics) to the text. This task poses a significant challenge with
noteworthy implications for computational processing and comprehension. In this
paper, we introduce PTCAD (Pre-FineTuned Token Classification for Arabic
Diacritization, a novel two-phase approach for the Arabic Text Diacritization
task. PTCAD comprises a pre-finetuning phase and a finetuning phase, treating
Arabic Text Diacritization as a token classification task for pre-trained
models. The effectiveness of PTCAD is demonstrated through evaluations on two
benchmark datasets derived from the Tashkeela dataset, where it achieves
state-of-the-art results, including a 20\% reduction in Word Error Rate (WER)
compared to existing benchmarks and superior performance over GPT-4 in ATD
tasks.
- Abstract(参考訳): アラビア語のテキストの自動ダイアクリティカル化には、テキストにダイアクリティカルマーク(ダイアクリティカルマーク)を追加することが含まれる。
このタスクは、計算処理と理解に注目すべき意味を持つ重要な課題をもたらす。
本稿では,アラビア文字発音タスクの新しい2段階アプローチであるPTCAD(Pre-FineTuned Token Classification for Arabic Diacritization)を紹介する。
PTCADは、事前訓練されたモデルのトークン分類タスクとしてアラビア文字発音処理を扱い、ファインタニングフェーズとファインタニングフェーズから構成される。
PTCADの有効性は、Tashkeelaデータセットから得られた2つのベンチマークデータセットで評価され、既存のベンチマークに比べてワードエラー率(WER)が20倍減少し、ATDタスクにおいてGPT-4よりも優れたパフォーマンスを示す。
関連論文リスト
- How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。
ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。
英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文 参考訳(メタデータ) (2025-01-27T21:30:02Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content [6.213698466889738]
ユーザ生成コンテンツ(UGC)の機械翻訳は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。
感情ラベルと人手による翻訳誤りを含む感情関連データセットを利用する。
文レベル評価スコアと単語レベルラベルで拡張し、文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。
論文 参考訳(メタデータ) (2024-10-04T09:49:57Z) - A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - CATT: Character-based Arabic Tashkeel Transformer [0.0]
タシュケル(Tashkeel)は、アラビア語のテキストの理解を大幅に強化する。
本稿では,ATDモデルのトレーニングに新たなアプローチを提案する。
11の商用およびオープンソースモデルとともに、当社のモデルを評価します。
論文 参考訳(メタデータ) (2024-07-03T16:05:20Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。
私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。
事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文 参考訳(メタデータ) (2023-03-15T23:45:54Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - OSACT4 Shared Task on Offensive Language Detection: Intensive
Preprocessing-Based Approach [0.0]
本研究では,前処理フェーズがアラビア文字のテキスト分類に与える影響について検討する。
ソーシャルメディアで使われるアラビア語は非公式であり、アラビア語の方言を用いて書かれており、テキスト分類作業は非常に複雑である。
集中的な前処理に基づくアプローチは、攻撃的な言語検出とヘイトスピーチ検出に大きな影響を与えることを示す。
論文 参考訳(メタデータ) (2020-05-14T23:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。