論文の概要: Building Arabic NLP from the Ground Up: Twenty Years of Lessons, Failures, and Open Problems
- arxiv url: http://arxiv.org/abs/2605.20786v1
- Date: Wed, 20 May 2026 06:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.525877
- Title: Building Arabic NLP from the Ground Up: Twenty Years of Lessons, Failures, and Open Problems
- Title(参考訳): アラビア語のNLPをゼロから構築する - 20年間の教訓,失敗,オープンな問題
- Authors: Wajdi Zaghouani,
- Abstract要約: 本稿は、アラビア語のNLP資源と研究インフラの構築に20年を要したことを反映する。
臨床実践に到達しなかったうつ病検出コーパス、十分な深さの共有タスクを多用する期間、そして現代標準アラビア語のインフラが方言タスクにきれいに移行するという長年の仮定の3つについて論じる。
- 参考スコア(独自算出の注目度): 0.7734073750595959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reflects on twenty years of building NLP resources and research infrastructure for Arabic, a language spoken by hundreds of millions yet historically underserved relative to languages such as English or Chinese. The first decade focused on foundational linguistic infrastructure; the second shifted toward computational social science, social media analysis, and socially oriented applications. Rather than cataloguing outputs, the paper examines what the experience of building them revealed. Three counterintuitive lessons emerge: building datasets is as much a social process as a technical one; communities formed around shared tasks often matter more than the tasks themselves; and moving from language resources to computational social science exposes challenges that traditional NLP training does not address. We discuss three failures: a depression detection corpus that never reached clinical practice, a period of spreading across too many shared tasks without sufficient depth, and a long-standing assumption that Modern Standard Arabic infrastructure would transfer cleanly to dialectal tasks. These experiences suggest that the hardest problems in developing NLP for underserved communities are not linguistic but social, institutional, and epistemic, and require competencies the field rarely teaches.
- Abstract(参考訳): 本稿は,英語や中国語などの言語に対して,何億という歴史的に理解されていない言語であるアラビア語に対して,NLP資源と研究基盤の構築に20年を要したことを反映する。
最初の10年間は基礎的な言語基盤に焦点が当てられ、第2は計算社会科学、ソーシャルメディア分析、社会指向のアプリケーションへと移行した。
アウトプットをカタログ化するのではなく、構築経験から明らかになったものについて調べる。
データセットの構築は技術的プロセスと同じくらいの社会的プロセスであり、共有タスクを中心に形成されたコミュニティは、タスクそのものよりも、多くの場合、言語リソースから計算社会科学への移行は、従来のNLPトレーニングでは対処できない課題を明らかにする。
臨床実践に到達しなかったうつ病検出コーパス、十分な深さの共有タスクを多用する期間、そして現代標準アラビア語のインフラが方言タスクにきれいに移行するという長年の仮定の3つについて論じる。
これらの経験から,NLP開発における最も困難な問題は言語的ではなく,社会的,制度的,疫学的な問題であり,分野がほとんど教えることのできない能力を必要とすることが示唆された。
関連論文リスト
- NaijaNLP: A Survey of Nigerian Low-Resource Languages [0.0]
3つの言語(Hausa、Yorub'a、Igbo)がナイジェリアの話し言葉の約60%を占めている。
これらの言語は、計算言語学におけるタスクを支援するリソースが不足しているため、低リソースに分類される。
本研究は,ナイジェリアの3大言語を対象とした低リソースNLP(LR-NLP)研究の進展を概観する。
論文 参考訳(メタデータ) (2025-02-27T05:48:51Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - A Capabilities Approach to Studying Bias and Harm in Language Technologies [4.135516576952934]
我々は、能力アプローチのレンズを通して、言語技術への公平さ、偏見、包摂性を考察する。
能力のアプローチは、人々が達成できるものに集中し、社会的、政治的、経済的文脈を考慮に入れている。
本稿では,機能アプローチ,多言語・多文化的評価との関係,言語技術の有害性の定義と評価において,コミュニティメンバと有意義な協力を得られるか,について詳述する。
論文 参考訳(メタデータ) (2024-11-06T22:46:13Z) - The Call for Socially Aware Language Technologies [94.6762219597438]
NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。
我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。
論文 参考訳(メタデータ) (2024-05-03T18:12:39Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Experience Grounds Language [185.73483760454454]
言語理解研究は、言語が記述する物理的世界と、それが促進する社会的相互作用とを関連づけることに失敗している。
テキストだけで訓練された後にタスクに取り組むための言語処理モデルの驚くべき効果にもかかわらず、成功した言語コミュニケーションは世界の共有経験に依存している。
論文 参考訳(メタデータ) (2020-04-21T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。