論文の概要: Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation
- arxiv url: http://arxiv.org/abs/2602.16290v1
- Date: Wed, 18 Feb 2026 09:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.555838
- Title: Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation
- Title(参考訳): Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation
- Authors: Jonathan Mutal, Perla Al Almaoui, Simon Hengchen, Pierrette Bouillon,
- Abstract要約: アラビア語の方言は、自然言語処理 (NLP) 研究において、長い間あまり表現されていない。
LLM(Large Language Models)のようなこの分野の最近の進歩は、このギャップに対処するための有望な道を提供する。
本稿では,AMIYA共有タスクへの提案であるAladdin-FTIについて述べる。
- 参考スコア(独自算出の注目度): 1.817669530501506
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Arabic dialects have long been under-represented in Natural Language Processing (NLP) research due to their non-standardization and high variability, which pose challenges for computational modeling. Recent advances in the field, such as Large Language Models (LLMs), offer promising avenues to address this gap by enabling Arabic to be modeled as a pluricentric language rather than a monolithic system. This paper presents Aladdin-FTI, our submission to the AMIYA shared task. The proposed system is designed to both generate and translate dialectal Arabic (DA). Specifically, the model supports text generation in Moroccan, Egyptian, Palestinian, Syrian, and Saudi dialects, as well as bidirectional translation between these dialects, Modern Standard Arabic (MSA), and English. The code and trained model are publicly available.
- Abstract(参考訳): アラビア方言は、その非標準化と高い可変性のために、自然言語処理(NLP)研究において、長い間あまり表現されていない。
大規模言語モデル(LLMs)のようなこの分野の最近の進歩は、アラビア語をモノリシックシステムではなく多中心言語としてモデル化できるようにすることによって、このギャップに対処するための有望な道を提供する。
本稿では,AMIYA共有タスクへの提案であるAladdin-FTIについて述べる。
提案システムは、方言アラビア語(DA)を生成・翻訳するように設計されている。
具体的には、モロッコ、エジプト、パレスチナ、シリア、サウジアラビアの方言におけるテキスト生成をサポートし、これらの方言、現代標準アラビア語(MSA)と英語の双方向翻訳をサポートする。
コードとトレーニングされたモデルは公開されている。
関連論文リスト
- From FusHa to Folk: Exploring Cross-Lingual Transfer in Arabic Language Models [9.715150075665354]
アラビア語モデル (LM) は、現代標準アラビア語 (MSA) で事前訓練されており、その方言に移行することが期待されている。
これは、その方言がMSAと類似性が異なるため、アラビア語のLMに制限を与える。
本研究では,3つの自然言語処理タスクの探索と表現的類似性を用いて,アラビア語モデルの言語間移動について検討する。
論文 参考訳(メタデータ) (2026-02-10T14:34:04Z) - Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? [0.4751886527142778]
アラビジはラテン文字と数字を含むアラビア語のハイブリッド形である。
機械翻訳には形式的な構造が欠如しているため、大きな課題がある。
本研究は、アラビジ語を現代標準アラビア語と英語の両方に翻訳する際のモデルの性能について検討する。
論文 参考訳(メタデータ) (2025-02-28T11:37:52Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。