論文の概要: Exploring NLP Benchmarks in an Extremely Low-Resource Setting
- arxiv url: http://arxiv.org/abs/2509.03962v1
- Date: Thu, 04 Sep 2025 07:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.091788
- Title: Exploring NLP Benchmarks in an Extremely Low-Resource Setting
- Title(参考訳): 極低リソース環境におけるNLPベンチマークの探索
- Authors: Ulin Nuha, Adam Jatowt,
- Abstract要約: 本稿では、絶滅危惧言語であるラディンに焦点を当て、特にヴァル・バディアの変種を対象とする。
我々は、単言語イタリア語データを翻訳することで、感情分析とマルチチョイス質問応答(MCQA)のための合成データセットを作成する。
- 参考スコア(独自算出の注目度): 21.656551146954587
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The effectiveness of Large Language Models (LLMs) diminishes for extremely low-resource languages, such as indigenous languages, primarily due to the lack of labeled data. Despite growing interest, the availability of high-quality natural language processing (NLP) datasets for these languages remains limited, making it difficult to develop robust language technologies. This paper addresses such gap by focusing on Ladin, an endangered Romance language, specifically targeting the Val Badia variant. Leveraging a small set of parallel Ladin-Italian sentence pairs, we create synthetic datasets for sentiment analysis and multiple-choice question answering (MCQA) by translating monolingual Italian data. To ensure linguistic quality and reliability, we apply rigorous filtering and back-translation procedures in our method. We further demonstrate that incorporating these synthetic datasets into machine translation training leads to substantial improvements over existing Italian-Ladin translation baselines. Our contributions include the first publicly available sentiment analysis and MCQA datasets for Ladin, establishing foundational resources that can support broader NLP research and downstream applications for this underrepresented language.
- Abstract(参考訳): LLM(Large Language Models)の有効性は、主にラベル付きデータがないために、ネイティブ言語のような極端に低リソースな言語では低下する。
関心が高まりつつも、これらの言語のための高品質自然言語処理(NLP)データセットは依然として限られており、堅牢な言語技術を開発するのが困難である。
本稿では、絶滅危惧言語であるラディン(Ladin)に焦点を当て、特にヴァル・バディア(Val Badia)の変種を対象とすることで、このギャップに対処する。
パラレルなLadin-Italian文ペアの小さなセットを活用することで、感情分析とMCQA(Multi-choice Question answering)のための合成データセットを作成し、モノリンガルなイタリア語データを翻訳する。
言語的品質と信頼性を確保するため,厳密なフィルタリングとバックトランスレーション手法を適用した。
さらに、これらの合成データセットを機械翻訳訓練に組み込むことで、既存のイタリア・ラディン翻訳ベースラインよりも大幅に改善されていることを実証する。
私たちのコントリビューションには、最初に公開されたLadinの感情分析とMCQAデータセットが含まれています。
関連論文リスト
- SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。
データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。
その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-29T17:48:08Z) - Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages? [2.7624021966289605]
低リソース言語のための名前付きエンティティ認識は、ラベル付きトレーニングデータが限られている言語のための堅牢なシステムを作ることを目的としている。
低リソースラベル付きデータの量を増やすためのデータ拡張は一般的なプラクティスである。
この結果から, 合成データは低リソース言語であるNERを約束するが, 言語間では大きな違いがあることがわかった。
論文 参考訳(メタデータ) (2025-05-22T15:50:47Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。