論文の概要: Implicit Discourse Relation Classification For Nigerian Pidgin
- arxiv url: http://arxiv.org/abs/2406.18776v2
- Date: Sun, 03 Nov 2024 19:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:41:15.131768
- Title: Implicit Discourse Relation Classification For Nigerian Pidgin
- Title(参考訳): ナイジェリアのピジンにおける暗黙の談話関係分類
- Authors: Muhammed Saeed, Peter Bourgonje, Vera Demberg,
- Abstract要約: ナイジェリアのピジン(NP)は1億人近い人々によって話されているが、比較的少ないNLP資源とコーパスを持っている。
我々は、オープンソースのIDRCツールを使用してラベルをバックプロジェクションし、NPのための合成談話コーパスを作成し、PDTBとPDTBラベルをプロジェクションする。
ネイティブ」NP分類を学習する後者のアプローチは、ベースラインを13.27%、f$_1$スコアで33.98%上回っている。
- 参考スコア(独自算出の注目度): 14.883782513177092
- License:
- Abstract: Despite attempts to make Large Language Models multi-lingual, many of the world's languages are still severely under-resourced. This widens the performance gap between NLP and AI applications aimed at well-financed, and those aimed at less-resourced languages. In this paper, we focus on Nigerian Pidgin (NP), which is spoken by nearly 100 million people, but has comparatively very few NLP resources and corpora. We address the task of Implicit Discourse Relation Classification (IDRC) and systematically compare an approach translating NP data to English and then using a well-resourced IDRC tool and back-projecting the labels versus creating a synthetic discourse corpus for NP, in which we translate PDTB and project PDTB labels, and then train an NP IDR classifier. The latter approach of learning a "native" NP classifier outperforms our baseline by 13.27\% and 33.98\% in f$_{1}$ score for 4-way and 11-way classification, respectively.
- Abstract(参考訳): 大規模言語モデルを多言語化しようとする試みにもかかわらず、世界の言語の多くはいまだに過大なリソースが不足している。
これにより、NLPとAIアプリケーション間のパフォーマンスギャップが拡大し、十分に洗練され、低リソースの言語を対象とするものとなる。
本稿では,ナイジェリア・ピジン(NP)に着目し,約1億人が話すが,比較的少ないNLP資源とコーパスを有する。
Inlicit Discourse Relation Classification (IDRC) の課題に対処し、NPデータを英語に翻訳し、十分なリソースのIDRCツールを使用してラベルをバックプロジェクションし、NPのための合成談話コーパスを作成し、PDTBとプロジェクトPDTBラベルを翻訳し、NP IDR分類器を訓練する手法を体系的に比較する。
ネイティブ」NP分類器を学習する後者のアプローチは、それぞれ4ウェイと11ウェイの分類において、f$_{1}$スコアの13.27\%と33.98\%でベースラインを上回ります。
関連論文リスト
- Exploring transfer learning for Deep NLP systems on rarely annotated languages [0.0]
本論文はヒンディー語とネパール語間のPOSタグ付けにおける移動学習の適用について考察する。
ヒンディー語におけるマルチタスク学習において,ジェンダーや単数/複数タグ付けなどの補助的なタスクがPOSタグ付け精度の向上に寄与するかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-15T13:33:54Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - MasakhaNEWS: News Topic Classification for African languages [15.487928928173098]
アフリカの言語は、いくつかのNLPタスクをカバーするデータセットが欠如しているため、NLP研究において非常に不足している。
我々は,アフリカで広く話されている16言語を対象として,ニューストピック分類のための新しいベンチマークデータセットであるMashokhaNEWSを開発した。
論文 参考訳(メタデータ) (2023-04-19T21:12:23Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Multilingual unsupervised sequence segmentation transfers to extremely
low-resource languages [0.0]
Masked Segmental Language Modelを多言語で事前学習することで、教師なしシーケンスセグメンテーションのパフォーマンスを極端に低リソース言語に変換することができる。
対象言語とタイプ論的に類似しているが系統学的には無関係) な低リソース言語群を学習することにより, この移行を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:08:28Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。