論文の概要: Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2502.08507v1
- Date: Wed, 12 Feb 2025 15:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:42.576362
- Title: Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction
- Title(参考訳): 多言語文法的誤り訂正のための説明に基づく文脈内デモ検索
- Authors: Wei Li, Wen Luo, Guangyue Peng, Houfeng Wang,
- Abstract要約: 文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語テキストにおける文法的誤り、綴り、意味的誤りを補正することを目的としている。
自然言語文法的誤り説明(GEE)に基づく新しい検索手法を提案する。
提案手法は,テスト入力のGEEと事前構築したデータベースのサンプルとをマッチングすることにより,適切な小ショットのデモを検索する。
- 参考スコア(独自算出の注目度): 19.95974494301433
- License:
- Abstract: Grammatical error correction (GEC) aims to correct grammatical, spelling, and semantic errors in natural language text. With the growing of large language models (LLMs), direct text generation has gradually become the focus of the GEC methods, and few-shot in-context learning presents a cost-effective solution. However, selecting effective in-context examples remains challenging, as the similarity between input texts does not necessarily correspond to similar grammatical error patterns. In this paper, we propose a novel retrieval method based on natural language grammatical error explanations (GEE) to address this issue. Our method retrieves suitable few-shot demonstrations by matching the GEE of the test input with that of pre-constructed database samples, where explanations for erroneous samples are generated by LLMs. We conducted multilingual GEC few-shot experiments on both major open-source and closed-source LLMs. Experiments across five languages show that our method outperforms existing semantic and BM25-based retrieval techniques, without requiring additional training or language adaptation. This also suggests that matching error patterns is key to selecting examples.
- Abstract(参考訳): 文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語テキストにおける文法的誤り、綴り、意味的誤りを補正することを目的としている。
大規模言語モデル (LLMs) の発達に伴い、直接テキスト生成は徐々にGEC手法の焦点となり、少数ショットのインコンテキスト学習はコスト効率のよいソリューションとなる。
しかし、入力テキスト間の類似性は、必ずしも類似した文法的誤りパターンに対応しないため、効果的なテキスト中の例を選択することは依然として困難である。
本稿では,この問題を解決するために,自然言語文法的誤り説明(GEE)に基づく新しい検索手法を提案する。
提案手法は,テスト入力のGEEと事前構築したデータベースサンプルのGEEとをマッチングすることにより,適切な小ショットのデモを検索する。
我々は,主要なオープンソースLLMとクローズドソースLLMの両面において,多言語GECによる複数ショット実験を行った。
5言語にまたがる実験により,本手法は訓練や言語適応を必要とせず,既存のセマンティクスやBM25に基づく検索技術よりも優れていることが示された。
これはまた、一致したエラーパターンが例を選択する上で重要であることを示唆している。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Loss-Aware Curriculum Learning for Chinese Grammatical Error Correction [21.82403446634522]
中国語の文法的誤り訂正(CGEC)は、入力された中国語文の誤りを検出し、訂正することを目的としている。
現在のアプローチでは、修正の難しさはインスタンスによって異なり、これらのサンプルを等しく扱うことは無視されている。
この問題に対処する多粒度カリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T08:11:49Z) - Contextual Spelling Correction with Language Model for Low-resource Setting [0.0]
文脈理解を伴うSCモデルを提供するために、小規模な単語ベースの変換器LMを訓練する。
コーパスからエラー発生確率(エラーモデル)を抽出する。
LMとエラーモデルを組み合わせることで、よく知られたノイズチャネルフレームワークを通じてSCモデルを開発することができる。
論文 参考訳(メタデータ) (2024-04-28T05:29:35Z) - Ungrammatical-syntax-based In-context Example Selection for Grammatical Error Correction [8.655807096424732]
本稿では,文法的誤り訂正のための非文法的シンタクスに基づく文内例選択手法を提案する。
具体的には,多種多様なアルゴリズムを用いた構文構造に基づいて文の類似度を測定し,テスト入力に最もよく似た不規則な構文を共有する最適なICL例を同定する。
論文 参考訳(メタデータ) (2024-03-28T10:05:57Z) - Prompting open-source and commercial language models for grammatical
error correction of English learner text [19.192210777082053]
大規模言語モデル(LLM)は、流動的で文法的なテキストを生成するよう促すことができる。
確立したベンチマークデータセット上で, 文法的誤り訂正(GEC)におけるLLMの性能評価を行った。
いくつかのオープンソースモデルは、最小限の編集ベンチマークで商用モデルよりも優れており、いくつかの設定ではゼロショットプロンプトは、少数ショットプロンプトと同じくらい競争力がある。
論文 参考訳(メタデータ) (2024-01-15T14:19:47Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - AStitchInLanguageModels: Dataset and Methods for the Exploration of
Idiomaticity in Pre-Trained Language Models [7.386862225828819]
本研究は、MWEを含む自然発生文のデータセットを、細かな意味の集合に手作業で分類する。
我々は,このデータセットを,idiomを含む文の表現生成における言語モデルの有効性と,idiomを用いた言語モデルの有効性を検証するために,2つのタスクで使用する。
論文 参考訳(メタデータ) (2021-09-09T16:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。