論文の概要: SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System
- arxiv url: http://arxiv.org/abs/2508.02268v1
- Date: Mon, 04 Aug 2025 10:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.288601
- Title: SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System
- Title(参考訳): SHAMI-MT - シリアのアラビア語方言から現代アラビア語の双方向機械翻訳システム
- Authors: Serry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila,
- Abstract要約: 本稿では,現代標準アラビア語(MSA)とシリア方言のコミュニケーションギャップを橋渡しする双方向機械翻訳システムである textbfSHAMI-MT を紹介する。
MSA-to-Shami とShami-to-MSA の2つの特殊モデルを提案し、どちらも最先端の AraT5v2-base-1024 アーキテクチャ上に構築されている。
MSA-to-ShamiモデルではOPENAIモデルGPT-4.1で判定すると,5.0点中5.0点中1点の平均品質スコアが得られた。
- 参考スコア(独自算出の注目度): 0.995313069446686
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rich linguistic landscape of the Arab world is characterized by a significant gap between Modern Standard Arabic (MSA), the language of formal communication, and the diverse regional dialects used in everyday life. This diglossia presents a formidable challenge for natural language processing, particularly machine translation. This paper introduces \textbf{SHAMI-MT}, a bidirectional machine translation system specifically engineered to bridge the communication gap between MSA and the Syrian dialect. We present two specialized models, one for MSA-to-Shami and another for Shami-to-MSA translation, both built upon the state-of-the-art AraT5v2-base-1024 architecture. The models were fine-tuned on the comprehensive Nabra dataset and rigorously evaluated on unseen data from the MADAR corpus. Our MSA-to-Shami model achieved an outstanding average quality score of \textbf{4.01 out of 5.0} when judged by OPENAI model GPT-4.1, demonstrating its ability to produce translations that are not only accurate but also dialectally authentic. This work provides a crucial, high-fidelity tool for a previously underserved language pair, advancing the field of dialectal Arabic translation and offering significant applications in content localization, cultural heritage, and intercultural communication.
- Abstract(参考訳): アラブ世界の豊かな言語景観は、現代標準アラビア語(MSA)、フォーマルなコミュニケーションの言語、日常生活で使われる多様な地域方言の間に大きなギャップがあることが特徴である。
この豪華さは自然言語処理、特に機械翻訳にとって非常に難しい課題である。
本稿では,MSAとシリア方言のコミュニケーションギャップを埋めるために開発された双方向機械翻訳システムである「textbf{SHAMI-MT}」を紹介する。
MSA-to-Shami とShami-to-MSA の2つの特殊モデルを提案し、どちらも最先端の AraT5v2-base-1024 アーキテクチャ上に構築されている。
モデルは包括的Nabraデータセットに基づいて微調整され、MADARコーパスから見えないデータに基づいて厳密に評価された。
MSA-to-ShamiモデルではOPENAIモデル GPT-4.1 で判定された場合,平均品質スコアが5.0 のうち textbf{4.01 であった。
この研究は、方言のアラビア語翻訳の分野を前進させ、コンテンツのローカライゼーション、文化遺産、文化間コミュニケーションに重要な応用を提供する、それまで保存されていなかった言語ペアにとって、極めて重要な、高忠実なツールを提供する。
関連論文リスト
- Open Automatic Speech Recognition Models for Classical and Modern Standard Arabic [15.807843278492847]
言語固有の課題に対処するために,アラビア語音声とテキスト処理の普遍的方法論を導入する。
我々は、FastConformerアーキテクチャに基づく2つの新しいモデルを訓練する。ひとつは、モダンスタンダードアラビア(MSA)用に特別に設計されたもので、もうひとつは、MSAと古典アラビア(CA)の両方のための最初の統一パブリックモデルである。
MSAモデルは、関連するデータセット上での最先端(SOTA)パフォーマンスで新しいベンチマークを設定し、統一モデルは、MSAの強いパフォーマンスを維持しながら、CAのためのダイアクリティカルティクスでSOTA精度を達成する。
論文 参考訳(メタデータ) (2025-07-18T14:42:18Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal
Conversations on Online Social Media [5.2957928879391]
本稿では,英語のつぶやきを4つのアラビア方言に文脈的に翻訳することで構築した,オンラインソーシャルネットワークに基づく多言語アラビア語データセットを提案する。
その結果,我々のデータセットを用いてトレーニングしたニューラルMTモデルの優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-21T14:58:50Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten
Arabic Varieties [18.73290429469502]
BardとChatGPTを10種類のアラビア語の機械翻訳能力について評価した。
我々の評価では、古典アラビア語(CA)、現代標準アラビア語(MSA)、およびいくつかの国レベルの方言の変種を網羅している。
しかし、CAとMSAでは、命令調整されたLLMがGoogle Translateのような商用システムに遅れを取っている。
論文 参考訳(メタデータ) (2023-08-06T08:29:16Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。