論文の概要: RE$^2$: Improving Chinese Grammatical Error Correction via Retrieving Appropriate Examples with Explanation
- arxiv url: http://arxiv.org/abs/2509.26038v1
- Date: Tue, 30 Sep 2025 10:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.094609
- Title: RE$^2$: Improving Chinese Grammatical Error Correction via Retrieving Appropriate Examples with Explanation
- Title(参考訳): RE$^2$: 説明付き適切な例の検索による中国語文法的誤り訂正の改善
- Authors: Baoxin Wang, Yumeng Luo, Yixuan Wang, Dayong Wu, Wanxiang Che, Shijin Wang,
- Abstract要約: 中国語の文法的誤り訂正(CGEC)の主な目的は,中国語の文中の誤りを検出し,訂正することである。
大きな言語モデル(LLM)では、適切な参照例を選択することでパフォーマンスが向上する。
本稿では,文法的誤りを記述した適切な例を検索するRE$2$を提案する。
- 参考スコア(独自算出の注目度): 44.80444520411601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary objective of Chinese grammatical error correction (CGEC) is to detect and correct errors in Chinese sentences. Recent research shows that large language models (LLMs) have been applied to CGEC with significant results. For LLMs, selecting appropriate reference examples can help improve their performance. However, existing methods predominantly rely on text similarity for example retrieval, a strategy that frequently mismatches actual error patterns and retrieves lexically similar yet grammatically irrelevant sentences. To address this problem, we propose a method named RE$^2$, which retrieves appropriate examples with explanations of grammatical errors. Instead of using text similarity of the input sentence, we use explanations of grammatical errors to select reference examples, which are used by LLMs to improve the performance of CGEC. We conduct experiments on two CGEC datasets and create a high-quality grammatical error explanation (GEE) dataset, which is not only used in our research but also serves as a valuable resource for future studies in both CGEC and GEE. The experimental results on the two datasets indicate that our proposed method effectively improves the performance of CGEC.
- Abstract(参考訳): 中国語の文法的誤り訂正(CGEC)の主な目的は,中国語の文中の誤りを検出し,訂正することである。
近年,大規模言語モデル (LLM) がCGECに適用されていることが報告されている。
LLMでは、適切な参照例を選択することで、パフォーマンスが向上する。
しかし、既存の手法は主にテキストの類似性に依存しており、例えば、実際の誤りパターンをしばしばミスマッチさせ、語彙的に類似しているが文法的に無関係な文を検索する戦略である。
この問題に対処するため,RE$^2$という手法を提案する。
入力文のテキスト類似性を使う代わりに、文法的誤りの説明を用いて参照例を抽出し、LCMがCGECの性能を向上させるために使用する。
我々は,2つのCGECデータセットの実験を行い,高品質な文法的誤り説明(GEE)データセットを作成する。
2つのデータセットの実験結果から,提案手法はCGECの性能を効果的に向上することが示された。
関連論文リスト
- Adapting LLMs for Minimal-edit Grammatical Error Correction [0.0]
本稿では,誤り率適応のトピックについて検討し,新しいトレーニングスケジュール法を提案する。
我々の実験は、BEA-testセット上の単一モデルシステムに対して、新しい最先端の結果を設定しました。
我々は、デトークン化されたデータセットのトレーニングが結果に影響を与えるかどうかを分析し、修正された誤例を用いてデータセットの使用の影響を計測する。
論文 参考訳(メタデータ) (2025-06-16T07:00:48Z) - Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction [19.95974494301433]
文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語テキストにおける文法的誤り、綴り、意味的誤りを補正することを目的としている。
自然言語文法的誤り説明(GEE)に基づく新しい検索手法を提案する。
提案手法は,テスト入力のGEEと事前構築したデータベースのサンプルとをマッチングすることにより,適切な小ショットのデモを検索する。
論文 参考訳(メタデータ) (2025-02-12T15:41:43Z) - Loss-Aware Curriculum Learning for Chinese Grammatical Error Correction [21.82403446634522]
中国語の文法的誤り訂正(CGEC)は、入力された中国語文の誤りを検出し、訂正することを目的としている。
現在のアプローチでは、修正の難しさはインスタンスによって異なり、これらのサンプルを等しく扱うことは無視されている。
この問題に対処する多粒度カリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T08:11:49Z) - Ungrammatical-syntax-based In-context Example Selection for Grammatical Error Correction [8.655807096424732]
本稿では,文法的誤り訂正のための非文法的シンタクスに基づく文内例選択手法を提案する。
具体的には,多種多様なアルゴリズムを用いた構文構造に基づいて文の類似度を測定し,テスト入力に最もよく似た不規則な構文を共有する最適なICL例を同定する。
論文 参考訳(メタデータ) (2024-03-28T10:05:57Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - Interpretability for Language Learners Using Example-Based Grammatical
Error Correction [27.850970793739933]
本稿では,言語学習者に対して,修正結果のベースとしてサンプルを提示する例ベースGEC(EB-GEC)を提案する。
実験により、EB-GECが提示した例は、言語学習者がGEC出力からの提案を受け入れたり拒否したりするのに役立つことが示された。
論文 参考訳(メタデータ) (2022-03-14T13:15:00Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。