論文の概要: The Arabic Generality Score: Another Dimension of Modeling Arabic Dialectness
- arxiv url: http://arxiv.org/abs/2508.17347v1
- Date: Sun, 24 Aug 2025 13:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.484827
- Title: The Arabic Generality Score: Another Dimension of Modeling Arabic Dialectness
- Title(参考訳): アラビア語の一般性スコア:アラビア語の方言をモデル化するもう一つの次元
- Authors: Sanad Shaban, Nizar Habash,
- Abstract要約: アラビア語の方言は様々な連続体を形成するが、NLPモデルはそれらを個別のカテゴリーとして扱うことが多い。
アラビア・ジェネリティスコア(AGS)は、単語が方言でどれだけ広く使われているかを定量化するものである。
- 参考スコア(独自算出の注目度): 10.837144343838945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arabic dialects form a diverse continuum, yet NLP models often treat them as discrete categories. Recent work addresses this issue by modeling dialectness as a continuous variable, notably through the Arabic Level of Dialectness (ALDi). However, ALDi reduces complex variation to a single dimension. We propose a complementary measure: the Arabic Generality Score (AGS), which quantifies how widely a word is used across dialects. We introduce a pipeline that combines word alignment, etymology-aware edit distance, and smoothing to annotate a parallel corpus with word-level AGS. A regression model is then trained to predict AGS in context. Our approach outperforms strong baselines, including state-of-the-art dialect ID systems, on a multi-dialect benchmark. AGS offers a scalable, linguistically grounded way to model lexical generality, enriching representations of Arabic dialectness.
- Abstract(参考訳): アラビア語の方言は様々な連続体を形成するが、NLPモデルはそれらを個別のカテゴリーとして扱うことが多い。
最近の研究は、方言を連続変数としてモデル化し、特にアラビア方言レベル(ALDi)を通してこの問題に対処している。
しかし、ALDiは複雑な変化を1次元に還元する。
アラビア・ジェネリティスコア(AGS)は、単語が方言でどれだけ広く使われているかを定量化するものである。
本稿では,単語アライメント,語源認識編集距離,および並列コーパスに単語レベルAGSを付加するスムーズなパイプラインを提案する。
回帰モデルは、文脈でAGSを予測するために訓練される。
提案手法は,最先端の方言IDシステムを含む強力なベースラインを,マルチダイアレクト・ベンチマークで上回る。
AGSは、アラビア語の方言の表現を豊かにし、語彙の一般性をモデル化するスケーラブルで言語的に根ざした方法を提供している。
関連論文リスト
- Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Post-hoc analysis of Arabic transformer models [20.741730718486032]
我々は、アラビア語の異なる方言で訓練されたトランスフォーマーモデルにおいて、言語情報がどのようにコード化されているかを探る。
アラビア語の異なる方言に対する形態的タグ付けタスクと方言識別タスクを用いて、モデル上で層とニューロン分析を行う。
論文 参考訳(メタデータ) (2022-10-18T16:53:51Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。