Fugu-MT 論文翻訳(概要): MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written in Latin Script

論文の概要: MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written in Latin Script

arxiv url: http://arxiv.org/abs/2206.09167v1
Date: Sat, 18 Jun 2022 10:17:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-26 06:38:10.647930
Title: MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written in Latin Script
Title（参考訳）: manorm:ラテン文字で書かれたモロッコ語アラビア語の正規化辞書
Authors: Randa Zarnoufi, Walid Bachri, Hamid Jaafar and Mounia Abik
Abstract要約: 我々は、YouTubeコメントのコーパスで生成された単語埋め込みモデルの強力さを利用する。我々は、マノルムと呼ぶ正規化辞書を構築した。
参考スコア（独自算出の注目度）: 0.05833117322405446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social media user-generated text is actually the main resource for many NLP tasks. This text however, does not follow the standard rules of writing. Moreover, the use of dialect such as Moroccan Arabic in written communications increases further NLP tasks complexity. A dialect is a verbal language that does not have a standard orthography, which leads users to improvise spelling while writing. Thus, for the same word we can find multiple forms of transliterations. Subsequently, it is mandatory to normalize these different transliterations to one canonical word form. To reach this goal, we have exploited the powerfulness of word embedding models generated with a corpus of YouTube comments. Besides, using a Moroccan Arabic dialect dictionary that provides the canonical forms, we have built a normalization dictionary that we refer to as MANorm. We have conducted several experiments to demonstrate the efficiency of MANorm, which have shown its usefulness in dialect normalization.
Abstract（参考訳）: ソーシャルメディアのユーザ生成テキストは多くのNLPタスクの主要なリソースである。しかし、この文章は標準的な文の規則に従わない。さらに、モロッコ語のような方言を文字によるコミュニケーションで使用すると、NLPタスクの複雑さが増す。方言は標準の正書法を持たない言語であり、ユーザが書きながら即興で綴りを書けるようにしている。したがって、同じ単語の場合、複数の形態の訳文を見つけることができる。その後、これらの異なる文字を1つの標準語形式に正規化することが義務付けられる。この目標を達成するために、youtubeコメントのコーパスで生成された単語埋め込みモデルの強力さを活用した。さらに、標準形を提供するモロッコのアラビア語方言辞書を用いて、我々はマノルムと呼ぶ正規化辞書を構築した。本研究では,方言正規化に有用性を示すマナームの効率性を示す実験を行った。

関連論文リスト

Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation [1.817669530501506]
アラビア語の方言は、自然言語処理 (NLP) 研究において、長い間あまり表現されていない。 LLM(Large Language Models)のようなこの分野の最近の進歩は、このギャップに対処するための有望な道を提供する。本稿では,AMIYA共有タスクへの提案であるAladdin-FTIについて述べる。
論文参考訳（メタデータ） (2026-02-18T09:15:20Z)
The Arabic Generality Score: Another Dimension of Modeling Arabic Dialectness [10.837144343838945]
アラビア語の方言は様々な連続体を形成するが、NLPモデルはそれらを個別のカテゴリーとして扱うことが多い。アラビア・ジェネリティスコア(AGS)は、単語が方言でどれだけ広く使われているかを定量化するものである。
論文参考訳（メタデータ） (2025-08-24T13:06:00Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。 AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文参考訳（メタデータ） (2024-07-18T02:13:50Z)
Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-07-03T11:30:03Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。 AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文参考訳（メタデータ） (2023-10-20T18:07:39Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文参考訳（メタデータ） (2022-12-15T18:17:01Z)
DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文参考訳（メタデータ） (2022-10-13T13:04:16Z)
VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文参考訳（メタデータ） (2022-04-06T18:30:56Z)
Offensive Language Detection in Under-resourced Algerian Dialectal Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文参考訳（メタデータ） (2022-03-18T15:42:21Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Can Multilingual Language Models Transfer to an Unseen Dialect? A Case Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文参考訳（メタデータ） (2020-05-01T11:29:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。