論文の概要: LMSpell: Neural Spell Checking for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2512.05414v2
- Date: Mon, 08 Dec 2025 02:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 15:54:52.381477
- Title: LMSpell: Neural Spell Checking for Low-Resource Languages
- Title(参考訳): LMSpell: 低リソース言語のためのニューラルスペルチェック
- Authors: Akesh Gunathilake, Nadil Karunarathne, Tharusha Bandaranayake, Nisansa de Silva, Surangika Ranathunga,
- Abstract要約: 微調整データセットが大きければ,Large Language Models (LLMs) はそれより優れている(エンコーダベース,エンコーダデコーダ)。
PLMにまたがるスペル補正ツールキットであるLMSpellをリリースする。
- 参考スコア(独自算出の注目度): 3.096543172017718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spell correction is still a challenging problem for low-resource languages (LRLs). While pretrained language models (PLMs) have been employed for spell correction, their use is still limited to a handful of languages, and there has been no proper comparison across PLMs. We present the first empirical study on the effectiveness of PLMs for spell correction, which includes LRLs. We find that Large Language Models (LLMs) outperform their counterparts (encoder-based and encoder-decoder) when the fine-tuning dataset is large. This observation holds even in languages for which the LLM is not pre-trained. We release LMSpell, an easy- to use spell correction toolkit across PLMs. It includes an evaluation function that compensates for the hallucination of LLMs. Further, we present a case study with Sinhala to shed light on the plight of spell correction for LRLs.
- Abstract(参考訳): スペル訂正は、低リソース言語(LRL)では依然として難しい問題である。
事前訓練された言語モデル(PLM)は綴りの修正に使われてきたが、まだ少数の言語に限られており、PLM間での適切な比較は行われていない。
LRLを含むスペル修正における PLM の有効性に関する実験的検討を行った。
微調整データセットが大きければ,Large Language Models (LLMs) はそれより優れている(エンコーダベース,エンコーダデコーダ)。
この観察は、LLMが事前訓練されていない言語でも行われます。
PLMにまたがるスペル補正ツールキットであるLMSpellをリリースする。
LLMの幻覚を補う評価関数を含む。
さらに, LRLのスペル補正に光を放つために, Sinhala を用いたケーススタディを提出した。
関連論文リスト
- Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs [45.44796295841526]
大規模言語モデル(LLM)は、高リソース言語(HRL)に対する印象的なゼロ/ファウショット推論と生成品質を示す。
いくつかは低リソース言語(LRL)でトレーニングされ、優れたパフォーマンスを実現しています。
LLM は HRL よりも LRL よりも多くのトークンを生成するため,LRL が価格面で不利であることを示す。
論文 参考訳(メタデータ) (2024-03-08T16:37:36Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource
Unsupervised Neural Machine Translation [32.76853731410492]
低リソース言語(LRL)は、限られた並列データによる教師ありニューラルマシン翻訳の課題に直面している。
本稿では,大言語モデルのLRL翻訳能力を高めるために,確率駆動型メタグラフプロンプタ(POMP)を提案する。
本実験は3つのLRLの翻訳品質を著しく改善した。
論文 参考訳(メタデータ) (2024-01-11T00:03:36Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。