論文の概要: A Tale of Two Scripts: Transliteration and Post-Correction for Judeo-Arabic
- arxiv url: http://arxiv.org/abs/2507.04746v1
- Date: Mon, 07 Jul 2025 08:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.324406
- Title: A Tale of Two Scripts: Transliteration and Post-Correction for Judeo-Arabic
- Title(参考訳): 二つの経典の物語--ジュデオ・アラビア語における音訳とポストコレクション
- Authors: Juan Moreno Gonzalez, Bashar Alhafni, Nizar Habash,
- Abstract要約: ユダヤ・アラビア語はヘブライ語で書かれており、ユダヤ人の作家やユダヤ人の聴衆のために書かれている。
アラビア語をアラビア語の文字に自動翻訳する2段階のアプローチを導入する。
アラビアのNLPツールがモルフォシンタクティックタグ付けや機械翻訳を行うことができることを示す。
- 参考スコア(独自算出の注目度): 10.653063604541746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Judeo-Arabic refers to Arabic variants historically spoken by Jewish communities across the Arab world, primarily during the Middle Ages. Unlike standard Arabic, it is written in Hebrew script by Jewish writers and for Jewish audiences. Transliterating Judeo-Arabic into Arabic script is challenging due to ambiguous letter mappings, inconsistent orthographic conventions, and frequent code-switching into Hebrew and Aramaic. In this paper, we introduce a two-step approach to automatically transliterate Judeo-Arabic into Arabic script: simple character-level mapping followed by post-correction to address grammatical and orthographic errors. We also present the first benchmark evaluation of LLMs on this task. Finally, we show that transliteration enables Arabic NLP tools to perform morphosyntactic tagging and machine translation, which would have not been feasible on the original texts.
- Abstract(参考訳): ジュデオ・アラビア語(ジュデオ・アラビア語: Judeo-Arabic)は、主に中世にアラブ世界のユダヤ人コミュニティによって話されたアラビア語の変種である。
通常のアラビア語とは異なり、ヘブライ語で書かれた文字はユダヤ人の作家やユダヤ人の聴衆のために書かれた。
ジュデオ・アラビア文字をアラビア文字に翻訳することは、曖昧な文字のマッピング、一貫性のない正書法、ヘブライ語とアラマ語への頻繁なコードスイッチによって困難である。
本稿では,ジュデオ・アラビア文字をアラビア文字に自動翻訳する2段階の手法を提案する。
また,この課題に対するLCMのベンチマーク評価を行った。
最後に,アラビア語のNLPツールが,原文では不可能であった形態素タグ付けや機械翻訳を行うことができることを示す。
関連論文リスト
- Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? [0.4751886527142778]
アラビジはラテン文字と数字を含むアラビア語のハイブリッド形である。
機械翻訳には形式的な構造が欠如しているため、大きな課題がある。
本研究は、アラビジ語を現代標準アラビア語と英語の両方に翻訳する際のモデルの性能について検討する。
論文 参考訳(メタデータ) (2025-02-28T11:37:52Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Training a Bilingual Language Model by Mapping Tokens onto a Shared
Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。
両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文 参考訳(メタデータ) (2024-02-25T11:26:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。