論文の概要: Consolidating and Developing Benchmarking Datasets for the Nepali Natural Language Understanding Tasks
- arxiv url: http://arxiv.org/abs/2411.19244v1
- Date: Thu, 28 Nov 2024 16:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:52.084507
- Title: Consolidating and Developing Benchmarking Datasets for the Nepali Natural Language Understanding Tasks
- Title(参考訳): ネパールの自然言語理解タスクのためのベンチマークデータセットの統合と開発
- Authors: Jinu Nyachhyon, Mridul Sharma, Prajwal Thapa, Bal Krishna Bal,
- Abstract要約: 8つの新しいデータセットを導入し、新しいベンチマーク、ネパール言語理解評価(NLUE)ベンチマークを作成します。
このベンチマークでは、さまざまな自然言語理解(NLU)タスクでモデルのパフォーマンスを評価するために、合計12のタスクがカバーされている。
追加タスクを用いたモデルの評価では、既存のモデルでは複雑なNLUタスクを効果的に処理できないことが観察される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Nepali language has distinct linguistic features, especially its complex script (Devanagari script), morphology, and various dialects, which pose a unique challenge for natural language processing (NLP) evaluation. While the Nepali Language Understanding Evaluation (Nep-gLUE) benchmark provides a foundation for evaluating models, it remains limited in scope, covering four tasks. This restricts their utility for comprehensive assessments of NLP models. To address this limitation, we introduce eight new datasets, creating a new benchmark, the Nepali Language Understanding Evaluation (NLUE) benchmark, which covers a total of 12 tasks for evaluating the performance of models across a diverse set of Natural Language Understanding (NLU) tasks. The added tasks include single-sentence classification, similarity and paraphrase tasks, and Natural Language Inference (NLI) tasks. On evaluating the models using added tasks, we observe that the existing models fall short in handling complex NLU tasks effectively. This expanded benchmark sets a new standard for evaluating, comparing, and advancing models, contributing significantly to the broader goal of advancing NLP research for low-resource languages.
- Abstract(参考訳): ネパール語には、特に複雑な文字(Devanagari 文字)、形態学、および様々な方言の言語的特徴があり、自然言語処理(NLP)の評価に固有の課題となっている。
ネパール語理解評価(Nep-gLUE)ベンチマークは、モデルを評価するための基盤を提供するが、スコープは限定的であり、4つのタスクをカバーしている。
これにより、NLPモデルの総合的な評価のためのユーティリティが制限される。
この制限に対処するため、我々は8つの新しいデータセットを導入し、新しいベンチマークであるネパール語理解評価(NLUE)ベンチマークを作成し、さまざまな自然言語理解(NLU)タスクでモデルのパフォーマンスを評価するための合計12のタスクをカバーした。
追加されたタスクには、単一文分類、類似性とパラフレーズタスク、自然言語推論(NLI)タスクが含まれる。
追加タスクを用いたモデルの評価では、既存のモデルでは複雑なNLUタスクを効果的に処理できないことが観察される。
この拡張されたベンチマークでは、モデルの評価、比較、進歩のための新しい標準が設定されており、低リソース言語のためのNLP研究を進めるというより広い目標に大きく貢献している。
関連論文リスト
- One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation [24.060772057458685]
本稿では,エチオピア語5言語(Amharic, Ge'ez, Afan Oromo, Somali, Tigrinya)と英語の多言語大言語モデルであるEthioLLMを紹介する。
我々は,5つの下流自然言語処理(NLP)タスクにおいて,これらのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-03-20T16:43:42Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - Predicting the Performance of Multilingual NLP Models [16.250791929966685]
本稿では,特定のタスクがテストセットを持つ言語上で,既存のモデルの性能スコアを利用する言語間でのモデル評価のための代替ソリューションを提案する。
我々はこれらの性能スコアの予測器を訓練し、この予測器を用いて異なる評価設定でモデルの性能を予測する。
提案手法は,既存の言語群に対する評価のギャップを埋めるのに有効であるが,未知の言語に一般化したい場合,さらなる改善が必要である可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-17T17:36:53Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。