論文の概要: AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic
- arxiv url: http://arxiv.org/abs/2603.09982v2
- Date: Thu, 12 Mar 2026 13:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.521405
- Title: AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic
- Title(参考訳): AraModernBERT:アラビア語のトランストークン化初期化と長期エンコーダモデリング
- Authors: Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim,
- Abstract要約: 我々は、ModernBERTエンコーダアーキテクチャをアラビア語に適応させたAraModernBERTを紹介する。
アラビア語モデリングにはトランストークン化が不可欠であることが示され、マスキング言語モデリング性能の劇的な改善がもたらされた。
- 参考スコア(独自算出の注目度): 0.899920055436881
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Encoder-only transformer models remain widely used for discriminative NLP tasks, yet recent architectural advances have largely focused on English. In this work, we present AraModernBERT, an adaptation of the ModernBERT encoder architecture to Arabic, and study the impact of transtokenized embedding initialization and native long-context modeling up to 8,192 tokens. We show that transtokenization is essential for Arabic language modeling, yielding dramatic improvements in masked language modeling performance compared to non-transtokenized initialization. We further demonstrate that AraModernBERT supports stable and effective long-context modeling, achieving improved intrinsic language modeling performance at extended sequence lengths. Downstream evaluations on Arabic natural language understanding tasks, including inference, offensive language detection, question-question similarity, and named entity recognition, confirm strong transfer to discriminative and sequence labeling settings. Our results highlight practical considerations for adapting modern encoder architectures to Arabic and other languages written in Arabic-derived scripts.
- Abstract(参考訳): エンコーダのみのトランスフォーマーモデルは、差別的なNLPタスクに広く使われているが、最近のアーキテクチャの進歩は、主に英語に焦点を当てている。
本研究では,ModernBERTエンコーダアーキテクチャをアラビア語に適応したAraModernBERTを紹介し,トランストークン化埋め込み初期化と8,192トークンまでのネイティブ長文モデリングの影響について検討する。
アラビア語モデリングにはトランストケン化が不可欠であることが示され,非トランストケン化初期化と比較してマスキング言語モデリング性能が劇的に向上した。
さらに、AraModernBERTが安定かつ効果的な長文モデリングをサポートし、拡張シーケンス長での固有言語モデリング性能の向上を実現していることを示す。
アラビア語の自然言語理解タスクのダウンストリーム評価では、推論、攻撃的言語検出、質問-問合せ類似性、名前付きエンティティ認識が、差別的およびシーケンシャルなラベル付け設定への強い移行を確認している。
本研究は,現代エンコーダアーキテクチャをアラビア文字で書かれた他の言語に適応させるための実践的考察を強調した。
関連論文リスト
- Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T10:18:28Z) - Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。
幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。
本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文 参考訳(メタデータ) (2025-04-30T09:56:36Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Empathetic BERT2BERT Conversational Model: Learning Arabic Language
Generation with Little Data [0.0]
AraBERTパラメータを持つトランスベースのエンコーダデコーダを提案する。
エンコーダとデコーダの重みをアラマント事前訓練された重みで初期化することで,知識伝達を活用できた。
本モデルでは, 従来モデルと比較して, 17.0 の低パープレキシティ値と 5 bleu ポイントの増大を達成した。
論文 参考訳(メタデータ) (2021-03-07T13:23:51Z) - AraELECTRA: Pre-Training Text Discriminators for Arabic Language
Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。
我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。
AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文 参考訳(メタデータ) (2020-12-31T09:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。