論文の概要: CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards
- arxiv url: http://arxiv.org/abs/2606.00020v1
- Date: Tue, 14 Apr 2026 02:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.578687
- Title: CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards
- Title(参考訳): CSRP:効率性を考慮した強化学習による中国語テキスト訂正の連鎖推論
- Authors: Wei Tian, Yuhao Zhou, Man Lan,
- Abstract要約: 汎用中国語モデルは、微妙な文法的区別のための特別な言語的先行概念を欠いている。
Supervised Fine-Tuning (SFT) with Maximum Likelihood Estimationは精度重視のメトリクスの最適化に失敗する。
CSRPは,5.9Mのバランスの取れたサンプルに対して,連続事前学習(CPT)による補正機能を段階的に構築する3段階のフレームワークである。
NACGECベンチマークでは、CSRPは50.99ドルのF_0.5$と57.17の精度で最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 20.028937245593003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) based Chinese Grammatical Error Correction (CGEC) systems face two critical challenges: general-purpose models lack specialized linguistic priors for subtle grammatical distinctions, and Supervised Fine-Tuning (SFT) with Maximum Likelihood Estimation fails to optimize for precision-focused metrics, leading to systematic over-correction. We propose CSRP, a three-stage framework that progressively builds correction capability through Continual Pre-training (CPT) on 5.9M balanced samples to internalize domain knowledge, Chain-of-Thought SFT with explicit error reasoning for diagnostic transparency, and Group Relative Policy Optimization with a novel Efficiency-Aware Reward that explicitly penalizes unnecessary edits. On the NACGEC benchmark, CSRP achieves state-of-the-art performance with 50.99 $F_{0.5}$ and 57.17 precision, substantially outperforming previous best results while effectively mitigating the over-correction bias inherent in MLE-trained models. Our method also advances CSCD spelling correction to 59.61 F1, surpassing GPT-4 by 5.20 points. Comprehensive ablation studies demonstrate that the RL alignment stage contributes a 8\% relative gain over the SFT baseline, and that this gain is orthogonal to the contribution of large-scale CPT, validating that explicit optimization for edit efficiency is essential for high-quality grammatical error correction. Our code is available at https://github.com/TW-NLP/ChineseErrorCorrector.
- Abstract(参考訳): 大言語モデル(LLM)に基づく中国語文法誤り訂正(CGEC)システムは、2つの重要な課題に直面している。
CSRPは,5.9Mのバランスのとれたサンプルを内在化するための連続事前学習(CPT)による補正能力を段階的に構築する3段階のフレームワークである。
NACGECのベンチマークでは、CSRPは50.99$F_{0.5}$と57.17の精度で最先端のパフォーマンスを達成し、MLE訓練モデルに固有の過補正バイアスを効果的に軽減した。
またCSCDスペル補正も59.61 F1に向上し, GPT-4を5.20ポイント上回った。
包括的アブレーション研究は、RLアライメント段階がSFTベースラインに対して8倍の相対的な利得をもたらし、この利得が大規模CPTの寄与に直交していることを示し、高品質な文法的誤り訂正には、編集効率の明示的な最適化が不可欠であることを証明した。
私たちのコードはhttps://github.com/TW-NLP/ ChineseErrorCorrector.comで公開されています。
関連論文リスト
- Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Incentivizing Parametric Knowledge via Reinforcement Learning with Verifiable Rewards for Cross-Cultural Entity Translation [68.85147984815778]
本稿では, EA-RLVR(Entity-Anchored Reinforcement Learning with Verifiable Rewards)を提案する。
EA-RLVRは、検証可能なエンティティレベルの報酬信号の監視をアンカーし、最適化を安定させるために軽量な構造ゲートを組み込む。
EA-RLVRをXC-Translate上で評価し、エンティティ翻訳精度とドメイン外一般化の両面で一貫した改善を観察する。
論文 参考訳(メタデータ) (2026-04-18T07:15:43Z) - How Confident Is the First Token? An Uncertainty-Calibrated Prompt Optimization Framework for Large Language Model Classification and Understanding [4.852493246050006]
大規模言語モデル(LLM)はアウトプットを自動回帰的に生成し、避けられないアウトプットの不確実性を引き起こす。
焦点損失にインスパイアされたファーストトケンベースの計量であるLSFU(Log-Scale Focal Uncertainty)を提案する。
UCPOFは、数点のベースラインよりも平均精度を6.03%向上し、フルRAGを5.75%上回り、平均検索トリガレートを50.66%低下させる。
論文 参考訳(メタデータ) (2026-02-23T11:55:14Z) - Prioritize the Process, Not Just the Outcome: Rewarding Latent Thought Trajectories Improves Reasoning in Looped Language Models [0.0]
RLTT(Reward Latent Thought Trajectories)は,潜在的推論軌道全体にわたって報酬を分配する強化学習フレームワークである。
RLTTはGRPOよりも大幅に改善され、MATH-500では+14.4%、AIME24では+16.6%、BeyondAIMEでは+10.0%の精度が向上した。
RLTTは数学に特化して訓練されているにもかかわらず、非数学的推論ベンチマークに効果的に移行し、LoopLMにおける強化学習における軌道レベルの信用割当の有効性を実証している。
論文 参考訳(メタデータ) (2026-02-11T04:39:42Z) - MoL for LLMs: Dual-Loss Optimization to Enhance Domain Expertise While Preserving General Capabilities [0.0]
本稿では,ドメイン固有および汎用コーパスの最適化目標を分離する新しいフレームワークであるMixture of Losses (MoL)を提案する。
具体的には、クロスエントロピー(CE)損失は知識獲得を保証するためにドメイン・コーパスに適用され、一方、Kulback-Leibler(KL)の分散は、一般的なコーパストレーニングとベースモデルの基本的な能力とを一致させる。
論文 参考訳(メタデータ) (2025-05-17T15:12:47Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。
最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。
本論文では,この新指標を最適化するための最初の試行について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。