論文の概要: MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written
in Latin Script
- arxiv url: http://arxiv.org/abs/2206.09167v1
- Date: Sat, 18 Jun 2022 10:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 06:38:10.647930
- Title: MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written
in Latin Script
- Title(参考訳): manorm:ラテン文字で書かれたモロッコ語アラビア語の正規化辞書
- Authors: Randa Zarnoufi, Walid Bachri, Hamid Jaafar and Mounia Abik
- Abstract要約: 我々は、YouTubeコメントのコーパスで生成された単語埋め込みモデルの強力さを利用する。
我々は、マノルムと呼ぶ正規化辞書を構築した。
- 参考スコア(独自算出の注目度): 0.05833117322405446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media user-generated text is actually the main resource for many NLP
tasks. This text however, does not follow the standard rules of writing.
Moreover, the use of dialect such as Moroccan Arabic in written communications
increases further NLP tasks complexity. A dialect is a verbal language that
does not have a standard orthography, which leads users to improvise spelling
while writing. Thus, for the same word we can find multiple forms of
transliterations. Subsequently, it is mandatory to normalize these different
transliterations to one canonical word form. To reach this goal, we have
exploited the powerfulness of word embedding models generated with a corpus of
YouTube comments. Besides, using a Moroccan Arabic dialect dictionary that
provides the canonical forms, we have built a normalization dictionary that we
refer to as MANorm. We have conducted several experiments to demonstrate the
efficiency of MANorm, which have shown its usefulness in dialect normalization.
- Abstract(参考訳): ソーシャルメディアのユーザ生成テキストは多くのNLPタスクの主要なリソースである。
しかし、この文章は標準的な文の規則に従わない。
さらに、モロッコ語のような方言を文字によるコミュニケーションで使用すると、NLPタスクの複雑さが増す。
方言は標準の正書法を持たない言語であり、ユーザが書きながら即興で綴りを書けるようにしている。
したがって、同じ単語の場合、複数の形態の訳文を見つけることができる。
その後、これらの異なる文字を1つの標準語形式に正規化することが義務付けられる。
この目標を達成するために、youtubeコメントのコーパスで生成された単語埋め込みモデルの強力さを活用した。
さらに、標準形を提供するモロッコのアラビア語方言辞書を用いて、我々はマノルムと呼ぶ正規化辞書を構築した。
本研究では,方言正規化に有用性を示すマナームの効率性を示す実験を行った。
関連論文リスト
- ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - UzbekStemmer: Development of a Rule-Based Stemming Algorithm for Uzbek
Language [0.0]
ウズベク語に対する規則に基づくスリーミングアルゴリズムを提案する。
この手法はウズベク語の単語をアフィクスストリッピングアプローチで綴じることを目的として提案されている。
XML形式の接尾辞の辞書が作成され、FSMに基づいてウズベク語を綴じるアプリケーションが開発されている。
論文 参考訳(メタデータ) (2022-10-28T09:29:22Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。