Fugu-MT 論文翻訳(概要): Arabic Text Diacritization In The Age Of Transfer Learning: Token Classification Is All You Need

論文の概要: Arabic Text Diacritization In The Age Of Transfer Learning: Token Classification Is All You Need

arxiv url: http://arxiv.org/abs/2401.04848v1
Date: Tue, 9 Jan 2024 23:32:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 15:53:57.854478
Title: Arabic Text Diacritization In The Age Of Transfer Learning: Token Classification Is All You Need
Title（参考訳）: 転校学習時代のアラビア語テキスト読取:トークン分類は必要なすべて
Authors: Abderrahman Skiredj, Ismail Berrada
Abstract要約: 本稿では,アラビア文字発音タスクの新しい2段階アプローチであるPTCAD(Pre-FineTuned Token Classification for Arabic Diacritization)を紹介する。 PTCADは、事前訓練されたモデルのトークン分類タスクとしてアラビア文字発音処理を扱い、ファインタニングフェーズとファインタニングフェーズから構成される。既存のベンチマークと比較してワードエラー率(WER)が20%削減され、ATDタスクのGPT-4よりも優れたパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 4.731947770462531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic diacritization of Arabic text involves adding diacritical marks (diacritics) to the text. This task poses a significant challenge with noteworthy implications for computational processing and comprehension. In this paper, we introduce PTCAD (Pre-FineTuned Token Classification for Arabic Diacritization, a novel two-phase approach for the Arabic Text Diacritization task. PTCAD comprises a pre-finetuning phase and a finetuning phase, treating Arabic Text Diacritization as a token classification task for pre-trained models. The effectiveness of PTCAD is demonstrated through evaluations on two benchmark datasets derived from the Tashkeela dataset, where it achieves state-of-the-art results, including a 20\% reduction in Word Error Rate (WER) compared to existing benchmarks and superior performance over GPT-4 in ATD tasks.
Abstract（参考訳）: アラビア語のテキストの自動ダイアクリティカル化には、テキストにダイアクリティカルマーク(ダイアクリティカルマーク)を追加することが含まれる。このタスクは、計算処理と理解に注目すべき意味を持つ重要な課題をもたらす。本稿では,アラビア文字発音タスクの新しい2段階アプローチであるPTCAD(Pre-FineTuned Token Classification for Arabic Diacritization)を紹介する。 PTCADは、事前訓練されたモデルのトークン分類タスクとしてアラビア文字発音処理を扱い、ファインタニングフェーズとファインタニングフェーズから構成される。 PTCADの有効性は、Tashkeelaデータセットから得られた2つのベンチマークデータセットで評価され、既存のベンチマークに比べてワードエラー率(WER)が20倍減少し、ATDタスクにおいてGPT-4よりも優れたパフォーマンスを示す。

関連論文リスト

EHSAN: Leveraging ChatGPT in a Hybrid Framework for Arabic Aspect-Based Sentiment Analysis in Healthcare [0.0]
EHSANはデータ中心のハイブリッドパイプラインで、ChatGPTの擬似ラベリングと人間のレビューを融合して、医療のための最初の説明可能なアラビア語のアスペクトベースの感情データセットを構築する。各文はアスペクトと感情ラベル(肯定的、否定的、中立的)で注釈付けされ、医療のテーマに沿った先駆的なアラビアのデータセットを形成する。今後の方向性には、病院全体の一般化、迅速な改善、データ駆動モデリングの解釈などが含まれる。
論文参考訳（メタデータ） (2025-08-04T16:28:58Z)
Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification [66.69370876902222]
本研究は,9言語にわたるテキストデトックス化システムの評価に関する総合的多言語研究である。我々は,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。本研究は,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
論文参考訳（メタデータ） (2025-07-21T12:38:07Z)
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training [1.4231093967875448]
General Arabic Text Embedding (GATE) モデルはMTEBベンチマークのセマンティックテキスト類似性タスクで最先端のパフォーマンスを達成する。 Gateは、STSベンチマークで20-25%のパフォーマンス改善により、OpenAIを含むより大きなモデルを上回っている。
論文参考訳（メタデータ） (2025-05-30T13:29:03Z)
Enhancing Arabic Automated Essay Scoring with Synthetic Data and Error Injection [10.198081881605226]
AES(Automated Essay Scoring)は,言語学習者の文章の質評価,作業負荷の低減,リアルタイムフィードバックなどにおいて重要な役割を担っている。本稿では,Large Language Models (LLMs) と Transformer を利用して,AES のための合成アラビア語エッセイデータセットを生成する新しいフレームワークを提案する。提案手法は,3,040個の注釈付きエッセイのデータセットを提供する,リアルな人間のようなエッセイを生成する。
論文参考訳（メタデータ） (2025-03-22T11:54:10Z)
How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文参考訳（メタデータ） (2025-01-27T21:30:02Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
A Multi-task Learning Framework for Evaluating Machine Translation of Emotion-loaded User-generated Content [6.213698466889738]
ユーザ生成コンテンツ(UGC)の機械翻訳は、スラング、感情、皮肉や皮肉といった文学的デバイスを扱うなど、ユニークな課題を生んでいる。感情ラベルと人手による翻訳誤りを含む感情関連データセットを利用する。文レベル評価スコアと単語レベルラベルで拡張し、文レベルと単語レベルの翻訳評価と感情分類に適したデータセットを作成する。
論文参考訳（メタデータ） (2024-10-04T09:49:57Z)
A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文参考訳（メタデータ） (2024-07-24T13:50:21Z)
CATT: Character-based Arabic Tashkeel Transformer [0.0]
タシュケル(Tashkeel)は、アラビア語のテキストの理解を大幅に強化する。本稿では,ATDモデルのトレーニングに新たなアプローチを提案する。 11の商用およびオープンソースモデルとともに、当社のモデルを評価します。
論文参考訳（メタデータ） (2024-07-03T16:05:20Z)
Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文参考訳（メタデータ） (2024-06-06T09:18:42Z)
Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。 MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文参考訳（メタデータ） (2023-11-23T08:34:37Z)
ChatGraph: Interpretable Text Classification by Converting ChatGPT Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文参考訳（メタデータ） (2023-05-03T19:57:43Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文参考訳（メタデータ） (2023-03-15T23:45:54Z)
Improving Chinese Spelling Check by Character Pronunciation Prediction: The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文参考訳（メタデータ） (2022-10-20T03:42:35Z)
On Sensitivity of Deep Learning Based Text Classification Algorithms to Practical Input Perturbations [0.0]
深層学習に基づくテキスト分類モデルの性能に及ぼす系統的な実践的摂動の影響を評価する。摂動は、句読や停止語のような望ましくないトークンの追加と削除によって引き起こされる。 BERTを含むこれらの深層学習アプローチは、4つの標準ベンチマークデータセットにおいて、そのような正当な入力摂動に敏感であることを示す。
論文参考訳（メタデータ） (2022-01-02T08:33:49Z)
OSACT4 Shared Task on Offensive Language Detection: Intensive Preprocessing-Based Approach [0.0]
本研究では,前処理フェーズがアラビア文字のテキスト分類に与える影響について検討する。ソーシャルメディアで使われるアラビア語は非公式であり、アラビア語の方言を用いて書かれており、テキスト分類作業は非常に複雑である。集中的な前処理に基づくアプローチは、攻撃的な言語検出とヘイトスピーチ検出に大きな影響を与えることを示す。
論文参考訳（メタデータ） (2020-05-14T23:46:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。