論文の概要: Revisiting Common Assumptions about Arabic Dialects in NLP
- arxiv url: http://arxiv.org/abs/2505.21816v1
- Date: Tue, 27 May 2025 22:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.323829
- Title: Revisiting Common Assumptions about Arabic Dialects in NLP
- Title(参考訳): NLPにおけるアラビア方言の共通推定の再検討
- Authors: Amr Keleg, Sharon Goldwater, Walid Magdy,
- Abstract要約: NLP文学では、アラビア方言に関するいくつかの仮定が広く採用されている。
これらの仮定は、アラビア方言識別(ADI)のような異なる計算タスクで表される。
これら4つの仮定を同定し、マルチラベルデータセットを拡張して解析する。
我々の分析は、4つの仮定が現実を単純化し過ぎていることを示している。
- 参考スコア(独自算出の注目度): 15.46274799809334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arabic has diverse dialects, where one dialect can be substantially different from the others. In the NLP literature, some assumptions about these dialects are widely adopted (e.g., ``Arabic dialects can be grouped into distinguishable regional dialects") and are manifested in different computational tasks such as Arabic Dialect Identification (ADI). However, these assumptions are not quantitatively verified. We identify four of these assumptions and examine them by extending and analyzing a multi-label dataset, where the validity of each sentence in 11 different country-level dialects is manually assessed by speakers of these dialects. Our analysis indicates that the four assumptions oversimplify reality, and some of them are not always accurate. This in turn might be hindering further progress in different Arabic NLP tasks.
- Abstract(参考訳): アラビア語には多様な方言があり、1つの方言は他の方言と大きく異なる。
NLP文学では、これらの方言に関するいくつかの仮定が広く採用されており(例えば、『アラビア方言』は識別可能な地域方言に分類できる)、アラビア方言識別(ADI)のような異なる計算タスクで表される。
しかし、これらの仮定は定量的に検証されていない。
我々はこれらの仮定を4つ同定し、多ラベルデータセットを拡張して分析し、11の国語レベルの方言における各文の妥当性をこれらの方言の話者によって手作業で評価する。
我々の分析は、4つの仮定が現実を単純化し過ぎていることを示している。
これは、アラビア語の異なるNLPタスクのさらなる進歩を妨げる可能性がある。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Estimating the Level of Dialectness Predicts Interannotator Agreement in Multi-dialect Arabic Datasets [15.46274799809334]
アラビアレベル・オブ・ダイアレクトネス(ALDi)スコアとアノテータのデータセットに関する合意との関係を解析した。
各サンプルの方言の母語話者に対して高いALDiスコアのルーティングサンプルを優先順位付けすることを推奨する。
論文 参考訳(メタデータ) (2024-05-18T12:58:02Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Curras + Baladi: Towards a Levantine Corpus [0.0]
約9.6Kの注釈付きトークンからなるレバノン・コーパス・バラディを提示する。
提案するコーパスは,キュラスを濃縮し,より一般的なレバンタインコーパスに変換するために構築された。
論文 参考訳(メタデータ) (2022-05-19T16:53:04Z) - Learning to Recognize Dialect Features [21.277962038423123]
本稿では,方言の特徴検出の課題を紹介するとともに,2つのマルチタスク学習手法を提案する。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小のペアでトレーニングします。
論文 参考訳(メタデータ) (2020-10-23T23:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。