論文の概要: "When Data is Scarce, Prompt Smarter"... Approaches to Grammatical Error Correction in Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2511.20120v1
- Date: Tue, 25 Nov 2025 09:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.389132
- Title: "When Data is Scarce, Prompt Smarter"... Approaches to Grammatical Error Correction in Low-Resource Settings
- Title(参考訳): 「データはスカースでスマート」...低資源環境における文法的誤り訂正へのアプローチ
- Authors: Somsubhra De, Harsh Kumar, Arun Prakash A,
- Abstract要約: 文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語処理において重要な課題であり、テキスト中の文法的誤りを自動的に検出し、修正することを目的としている。
ほとんどのIndic言語にとって、GECは限られた資源、言語的多様性、複雑な形態学のために難しい課題である。
我々は,GPT-4.1やGemini-2.5,LLaMA-4といった最先端の大規模言語モデル(LLM)を用いたプロンプトベースのアプローチと,低リソース環境に適応するための数ショット戦略を併用することを検討した。
- 参考スコア(独自算出の注目度): 2.926692606428691
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grammatical error correction (GEC) is an important task in Natural Language Processing that aims to automatically detect and correct grammatical mistakes in text. While recent advances in transformer-based models and large annotated datasets have greatly improved GEC performance for high-resource languages such as English, the progress has not extended equally. For most Indic languages, GEC remains a challenging task due to limited resources, linguistic diversity and complex morphology. In this work, we explore prompting-based approaches using state-of-the-art large language models (LLMs), such as GPT-4.1, Gemini-2.5 and LLaMA-4, combined with few-shot strategy to adapt them to low-resource settings. We observe that even basic prompting strategies, such as zero-shot and few-shot approaches, enable these LLMs to substantially outperform fine-tuned Indic-language models like Sarvam-22B, thereby illustrating the exceptional multilingual generalization capabilities of contemporary LLMs for GEC. Our experiments show that carefully designed prompts and lightweight adaptation significantly enhance correction quality across multiple Indic languages. We achieved leading results in the shared task--ranking 1st in Tamil (GLEU: 91.57) and Hindi (GLEU: 85.69), 2nd in Telugu (GLEU: 85.22), 4th in Bangla (GLEU: 92.86), and 5th in Malayalam (GLEU: 92.97). These findings highlight the effectiveness of prompt-driven NLP techniques and underscore the potential of large-scale LLMs to bridge resource gaps in multilingual GEC.
- Abstract(参考訳): 文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語処理において重要な課題であり、テキスト中の文法的誤りを自動的に検出し、修正することを目的としている。
近年のトランスフォーマーベースモデルと大規模アノテートデータセットの進歩は、英語などの高リソース言語におけるGEC性能を大幅に向上させたが、その進歩は等しく拡張されていない。
ほとんどのIndic言語にとって、GECは限られた資源、言語的多様性、複雑な形態学のために難しい課題である。
本研究では,GPT-4.1やGemini-2.5,LLaMA-4といった最先端の大規模言語モデル(LLM)を用いたプロンプトベースアプローチと,低リソース環境に適応するための数ショット戦略を併用して検討する。
我々は、ゼロショットや少数ショットアプローチのような基本的なプロンプト戦略であっても、これらのLLMはSarvam-22Bのような細調整されたインデックス言語モデルを大幅に上回り、現代LLMのGECに対する例外的な多言語一般化能力を示すことを観察した。
実験の結果,慎重に設計したプロンプトと軽量な適応により,複数のIndic言語にまたがる修正品質が著しく向上することがわかった。
我々は,タミル語で第1位(91.57),ヒンディー語で第2位(85.69),テルグ語で第2位(85.22),バングラ語で第4位(92.86),マラヤラム語で第5位(92.97)を達成した。
これらの知見は,多言語GECにおける資源ギャップを橋渡しする大規模LCMの有効性を,プロンプト駆動型NLP技術の有効性を浮き彫りにしている。
関連論文リスト
- On Limitations of LLM as Annotator for Low Resource Languages [0.4194295877935868]
低リソース言語は、教師付き学習、アノテーション、分類といったタスクのための十分な言語データ、リソース、ツールが不足しているため、重大な課題に直面している。
このギャップを埋めるために、Large Language Models (LLM) は潜在的なアノテータの機会を提供する。
論文 参考訳(メタデータ) (2024-11-26T17:55:37Z) - Grammatical Error Correction for Low-Resource Languages: The Case of Zarma [8.40484790921164]
文法的誤り訂正は、テキストの品質と可読性を改善することを目的としている。
西アフリカで500万人以上が話していたGEC for Zarmaについて検討する。
ルールベース手法,機械翻訳(MT)モデル,大規模言語モデルという3つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-10-20T23:51:36Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。