論文の概要: Curras + Baladi: Towards a Levantine Corpus
- arxiv url: http://arxiv.org/abs/2205.09692v1
- Date: Thu, 19 May 2022 16:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:33:07.564258
- Title: Curras + Baladi: Towards a Levantine Corpus
- Title(参考訳): Curras + Baladi: レバンタ・コーパスを目指して
- Authors: Karim El Haff, Mustafa Jarrar, Tymaa Hammouda, Fadi Zaraket
- Abstract要約: 約9.6Kの注釈付きトークンからなるレバノン・コーパス・バラディを提示する。
提案するコーパスは,キュラスを濃縮し,より一般的なレバンタインコーパスに変換するために構築された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The processing of the Arabic language is a complex field of research. This is
due to many factors, including the complex and rich morphology of Arabic, its
high degree of ambiguity, and the presence of several regional varieties that
need to be processed while taking into account their unique characteristics.
When its dialects are taken into account, this language pushes the limits of
NLP to find solutions to problems posed by its inherent nature. It is a
diglossic language; the standard language is used in formal settings and in
education and is quite different from the vernacular languages spoken in the
different regions and influenced by older languages that were historically
spoken in those regions. This should encourage NLP specialists to create
dialect-specific corpora such as the Palestinian morphologically annotated
Curras corpus of Birzeit University. In this work, we present the Lebanese
Corpus Baladi that consists of around 9.6K morphologically annotated tokens.
Since Lebanese and Palestinian dialects are part of the same Levantine
dialectal continuum, and thus highly mutually intelligible, our proposed corpus
was constructed to be used to (1) enrich Curras and transform it into a more
general Levantine corpus and (2) improve Curras by solving detected errors.
- Abstract(参考訳): アラビア語の処理は複雑な研究分野である。
これは、アラビア語の複雑で豊かな形態学、その曖昧さの度合いの高さ、独自の特徴を考慮に入れながら処理する必要があるいくつかの地域品種の存在など、多くの要因による。
方言が考慮されると、この言語はNLPの限界を押して、その固有の性質によって引き起こされる問題の解を見つける。
標準言語は形式的な設定や教育で使われ、異なる地域で話される言語とは全く異なるものであり、歴史的にこれらの地域で話されていた古い言語の影響を受けている。
これにより、NLPの専門家は、バージット大学のパレスチナ語形態学的に注釈付けされたCurras corpusのような方言固有のコーパスを作成することができる。
本研究では、約9.6Kの注釈付きトークンからなるレバノン・コーパス・バラディを提示する。
レバノン語とパレスチナ語の方言は、同じレバンチン方言連続体の一部であり、非常に相互に理解しやすいため、提案するコーパスは、(1)キュラを豊かにし、より一般的なレバンチンコーパスに変換し、(2)検出されたエラーを解決することで、キュラを改善するために使用される。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus [8.96693684560691]
ZAEBUC-Spokenは多言語多言語対応アラビア語-英語音声コーパスである。
コーパスは自動音声認識(ASR)のための課題セットを提供する
我々は、既存の転写ガイドラインからインスピレーションを得て、会話音声、コードスイッチング、両方の言語の正書法といった問題を扱う一連のガイドラインを提示する。
論文 参考訳(メタデータ) (2024-03-27T01:19:23Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Post-hoc analysis of Arabic transformer models [20.741730718486032]
我々は、アラビア語の異なる方言で訓練されたトランスフォーマーモデルにおいて、言語情報がどのようにコード化されているかを探る。
アラビア語の異なる方言に対する形態的タグ付けタスクと方言識別タスクを用いて、モデル上で層とニューロン分析を行う。
論文 参考訳(メタデータ) (2022-10-18T16:53:51Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。