論文の概要: Curras + Baladi: Towards a Levantine Corpus
- arxiv url: http://arxiv.org/abs/2205.09692v1
- Date: Thu, 19 May 2022 16:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:33:07.564258
- Title: Curras + Baladi: Towards a Levantine Corpus
- Title(参考訳): Curras + Baladi: レバンタ・コーパスを目指して
- Authors: Karim El Haff, Mustafa Jarrar, Tymaa Hammouda, Fadi Zaraket
- Abstract要約: 約9.6Kの注釈付きトークンからなるレバノン・コーパス・バラディを提示する。
提案するコーパスは,キュラスを濃縮し,より一般的なレバンタインコーパスに変換するために構築された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The processing of the Arabic language is a complex field of research. This is
due to many factors, including the complex and rich morphology of Arabic, its
high degree of ambiguity, and the presence of several regional varieties that
need to be processed while taking into account their unique characteristics.
When its dialects are taken into account, this language pushes the limits of
NLP to find solutions to problems posed by its inherent nature. It is a
diglossic language; the standard language is used in formal settings and in
education and is quite different from the vernacular languages spoken in the
different regions and influenced by older languages that were historically
spoken in those regions. This should encourage NLP specialists to create
dialect-specific corpora such as the Palestinian morphologically annotated
Curras corpus of Birzeit University. In this work, we present the Lebanese
Corpus Baladi that consists of around 9.6K morphologically annotated tokens.
Since Lebanese and Palestinian dialects are part of the same Levantine
dialectal continuum, and thus highly mutually intelligible, our proposed corpus
was constructed to be used to (1) enrich Curras and transform it into a more
general Levantine corpus and (2) improve Curras by solving detected errors.
- Abstract(参考訳): アラビア語の処理は複雑な研究分野である。
これは、アラビア語の複雑で豊かな形態学、その曖昧さの度合いの高さ、独自の特徴を考慮に入れながら処理する必要があるいくつかの地域品種の存在など、多くの要因による。
方言が考慮されると、この言語はNLPの限界を押して、その固有の性質によって引き起こされる問題の解を見つける。
標準言語は形式的な設定や教育で使われ、異なる地域で話される言語とは全く異なるものであり、歴史的にこれらの地域で話されていた古い言語の影響を受けている。
これにより、NLPの専門家は、バージット大学のパレスチナ語形態学的に注釈付けされたCurras corpusのような方言固有のコーパスを作成することができる。
本研究では、約9.6Kの注釈付きトークンからなるレバノン・コーパス・バラディを提示する。
レバノン語とパレスチナ語の方言は、同じレバンチン方言連続体の一部であり、非常に相互に理解しやすいため、提案するコーパスは、(1)キュラを豊かにし、より一般的なレバンチンコーパスに変換し、(2)検出されたエラーを解決することで、キュラを改善するために使用される。
関連論文リスト
- Extracting Lexical Features from Dialects via Interpretable Dialect
Classifiers [47.80121654181264]
本稿では,解釈可能な方言を用いて,方言の語彙的特徴を識別する新しい手法を提案する。
本手法は,方言の変種に寄与する重要な言語固有の語彙の特徴を同定し,その同定に有効であることを示す。
論文 参考訳(メタデータ) (2024-02-27T22:06:55Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Post-hoc analysis of Arabic transformer models [20.741730718486032]
我々は、アラビア語の異なる方言で訓練されたトランスフォーマーモデルにおいて、言語情報がどのようにコード化されているかを探る。
アラビア語の異なる方言に対する形態的タグ付けタスクと方言識別タスクを用いて、モデル上で層とニューロン分析を行う。
論文 参考訳(メタデータ) (2022-10-18T16:53:51Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。