論文の概要: Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language
- arxiv url: http://arxiv.org/abs/2306.14866v1
- Date: Mon, 26 Jun 2023 17:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:17:33.364672
- Title: Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language
- Title(参考訳): NArabizi Treebankの強化 - アンダーソース言語をサポートするための多面的アプローチ
- Authors: Riabi Arij, Mahamdi Menel, Seddah Djam\'e
- Abstract要約: ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。
NArabizi Treebankの豊富なバージョンを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we address the scarcity of annotated data for NArabizi, a
Romanized form of North African Arabic used mostly on social media, which poses
challenges for Natural Language Processing (NLP). We introduce an enriched
version of NArabizi Treebank (Seddah et al., 2020) with three main
contributions: the addition of two novel annotation layers (named entity
recognition and offensive language detection) and a re-annotation of the
tokenization, morpho-syntactic and syntactic layers that ensure annotation
consistency. Our experimental results, using different tokenization schemes,
showcase the value of our contributions and highlight the impact of working
with non-gold tokenization for NER and dependency parsing. To facilitate future
research, we make these annotations publicly available. Our enhanced NArabizi
Treebank paves the way for creating sophisticated language models and NLP tools
for this under-represented language.
- Abstract(参考訳): 本稿では,主にソーシャルメディアで使用される北アフリカアラビアのローマ字形式であるナラビジの注釈データの不足に対処し,自然言語処理(NLP)の課題を提起する。
我々は,NArabizi Treebank(Seddah et al., 2020)の豊富なバージョンを紹介し,2つの新しいアノテーション層(エンティティ認識と攻撃的言語検出)の追加と,アノテーションの整合性を保証するトークン化,モルフォシアンタクティックおよび構文的レイヤの再アノテーションについて紹介する。
さまざまなトークン化スキームを用いた実験結果は,コントリビューションの価値を示し,nerと依存性解析のための非goldトークン化による作業の影響を強調する。
今後の研究を促進するため,これらのアノテーションを一般公開する。
拡張されたナラビジツリーバンクは、この低表現言語のための洗練された言語モデルとnlpツールの作成方法を提供します。
関連論文リスト
- Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす
本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。
そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:29:55Z) - Specifying Genericity through Inclusiveness and Abstractness Continuous Scales [1.024113475677323]
本稿では,自然言語における名詞句(NP)の詳細なモデリングのための新しいアノテーションフレームワークを提案する。
このフレームワークはシンプルで直感的に設計されており、専門家でないアノテータにもアクセスでき、クラウドソースのタスクに適している。
論文 参考訳(メタデータ) (2024-03-22T15:21:07Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Automatic Readability Assessment for Closely Related Languages [6.233117407988574]
この研究は、相互の知性や言語関連度などの言語的側面が、低リソース環境でのARAをどのように改善できるかに焦点を当てる。
フィリピン・タガログ語・ビコル語・セブアーノ語の3言語で書かれた短い記事を収集し,読みやすさ評価モデルを構築した。
本研究は, 相互信頼度の高い言語にn-gram重み付けを適用した新たな機能であるCrossNGOの導入により, ARAモデルの性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-05-22T20:42:53Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - MASALA: Modelling and Analysing the Semantics of Adpositions in
Linguistic Annotation of Hindi [11.042037758273226]
我々は言語モデルを用いてヒンディー語におけるSNACSスーパーセンスの自動ラベリングを試みる。
Gujaratiのような関連言語へのセマンティックロールラベリングや拡張におけるアップストリームアプリケーションについて検討する。
論文 参考訳(メタデータ) (2022-05-08T21:13:33Z) - Towards Responsible Natural Language Annotation for the Varieties of
Arabic [12.526184907781731]
我々は多言語・多言語言語のための責任あるデータセット作成のためのプレイブックを提示する。
この研究は、ソーシャルメディアコンテンツに関するアラビア語の注釈の研究によって知らされる。
論文 参考訳(メタデータ) (2022-03-17T20:23:27Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。