論文の概要: The Role of Orthographic Consistency in Multilingual Embedding Models for Text Classification in Arabic-Script Languages
- arxiv url: http://arxiv.org/abs/2507.18762v1
- Date: Thu, 24 Jul 2025 19:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.734143
- Title: The Role of Orthographic Consistency in Multilingual Embedding Models for Text Classification in Arabic-Script Languages
- Title(参考訳): アラビア文字言語におけるテキスト分類のための多言語埋め込みモデルにおけるオルソグラフィ一貫性の役割
- Authors: Abdulhady Abas Abdullah, Amir H. Gandomi, Tarik A Rashid, Seyedali Mirjalili, Laith Abualigah, Milena Živković, Hadi Veisi,
- Abstract要約: アラビア文字のRoBERTa(AS-RoBERTa)ファミリー:RoBERTaをベースとした4つのモデルを紹介する。
アラビア文字を用いた言語におけるスクリプト認識特化の価値を強調し、スクリプトと言語特異性に根ざした事前学習戦略をさらに支援した。
- 参考スコア(独自算出の注目度): 30.39307182175106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In natural language processing, multilingual models like mBERT and XLM-RoBERTa promise broad coverage but often struggle with languages that share a script yet differ in orthographic norms and cultural context. This issue is especially notable in Arabic-script languages such as Kurdish Sorani, Arabic, Persian, and Urdu. We introduce the Arabic Script RoBERTa (AS-RoBERTa) family: four RoBERTa-based models, each pre-trained on a large corpus tailored to its specific language. By focusing pre-training on language-specific script features and statistics, our models capture patterns overlooked by general-purpose models. When fine-tuned on classification tasks, AS-RoBERTa variants outperform mBERT and XLM-RoBERTa by 2 to 5 percentage points. An ablation study confirms that script-focused pre-training is central to these gains. Error analysis using confusion matrices shows how shared script traits and domain-specific content affect performance. Our results highlight the value of script-aware specialization for languages using the Arabic script and support further work on pre-training strategies rooted in script and language specificity.
- Abstract(参考訳): 自然言語処理において、mBERT や XLM-RoBERTa のような多言語モデルは広範な範囲を約束するが、書体を共有する言語と苦戦することが多い。
この問題は特にクルド語のソラニ語、アラビア語、ペルシア語、ウルドゥー語などのアラビア文字の言語で顕著である。
アラビア文字のRoBERTa(AS-RoBERTa)ファミリー:RoBERTaをベースとした4つのモデルを紹介する。
言語固有のスクリプトの特徴と統計を事前学習することで、我々のモデルは汎用モデルで見過ごされるパターンを捉えます。
分類タスクを微調整すると、AS-RoBERTaの変種はmBERTとXLM-RoBERTaを2~5ポイント上回る。
アブレーション調査では、スクリプトに焦点を当てた事前学習がこれらの利益の中心であることを確認している。
混乱行列を用いた誤り解析は、共有スクリプト特性とドメイン固有のコンテンツがパフォーマンスにどのように影響するかを示す。
アラビア文字を用いた言語におけるスクリプト認識特化の価値を強調し、スクリプトと言語特異性に根ざした事前学習戦略をさらに支援した。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - PALI: A Language Identification Benchmark for Perso-Arabic Scripts [30.99179028187252]
本稿ではペルソ・アラビア文字を用いた言語検出の課題について述べる。
文を言語に分類するために、教師付きテクニックのセットを使用します。
また,しばしば混同される言語群を対象とする階層モデルを提案する。
論文 参考訳(メタデータ) (2023-04-03T19:40:14Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - proScript: Partially Ordered Scripts Generation via Pre-trained Language
Models [49.03193243699244]
我々は、トレーニング済みのニューラルネットワークモデル(LM)が高品質なスクリプトを生成するために微調整できることを初めて実証した。
クラウドソースされた部分的に順序付けられたスクリプト(proScriptという名前)を収集しました。
私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。
論文 参考訳(メタデータ) (2021-04-16T17:35:10Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。