論文の概要: CEC-Zero: Zero-Supervision Character Error Correction with Self-Generated Rewards
- arxiv url: http://arxiv.org/abs/2512.23971v1
- Date: Tue, 30 Dec 2025 03:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.271431
- Title: CEC-Zero: Zero-Supervision Character Error Correction with Self-Generated Rewards
- Title(参考訳): CEC-Zero:自己生成リワードによるゼロスーパービジョン文字誤り訂正
- Authors: Zhiming Lin, Kai Zhao, Sophie Zhang, Peilai Yu, Canran Xiao,
- Abstract要約: 大規模な中国語スペル訂正(CSC)は、現実世界のテキスト処理において重要な課題である。
ゼロスーパービジョン強化学習フレームワークであるCEC-Zeroを紹介する。
クリーンテキストからエラーの多い入力を合成し、セマンティックな類似性と候補合意を通じてクラスタ合意報酬を計算する。
- 参考スコア(独自算出の注目度): 5.874077219404211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Chinese spelling correction (CSC) remains critical for real-world text processing, yet existing LLMs and supervised methods lack robustness to novel errors and rely on costly annotations. We introduce CEC-Zero, a zero-supervision reinforcement learning framework that addresses this by enabling LLMs to correct their own mistakes. CEC-Zero synthesizes errorful inputs from clean text, computes cluster-consensus rewards via semantic similarity and candidate agreement, and optimizes the policy with PPO. It outperforms supervised baselines by 10--13 F$_1$ points and strong LLM fine-tunes by 5--8 points across 9 benchmarks, with theoretical guarantees of unbiased rewards and convergence. CEC-Zero establishes a label-free paradigm for robust, scalable CSC, unlocking LLM potential in noisy text pipelines.
- Abstract(参考訳): 大規模な中国語スペル訂正(CSC)は、現実世界のテキスト処理において依然として重要であるが、既存のLLMや教師付きメソッドは、新しいエラーに対する堅牢性に欠けており、高価なアノテーションに依存している。
ゼロ・スーパービジョン強化学習フレームワークであるCEC-Zeroを導入する。
CEC-Zeroはクリーンテキストからエラーフルな入力を合成し、セマンティックな類似性と候補合意を通じてクラスタ合意報酬を計算し、PPOでポリシーを最適化する。
教師付きベースラインを10--13 F$_1$ポイント、強力なLLMファインチューニングを9つのベンチマークで5--8ポイント上回る。
CEC-Zeroは、堅牢でスケーラブルなCSCのためのラベルなしパラダイムを確立し、ノイズの多いテキストパイプラインでLLMポテンシャルをアンロックする。
関連論文リスト
- IF-CRITIC: Towards a Fine-Grained LLM Critic for Instruction-Following Evaluation [87.38454788767545]
本稿では,大規模言語モデルにおける命令追従の評価モデルであるIF-CRITICを提案する。
IF-CRITICが提供するスケーラブルな報酬信号により、LLMは命令追従最適化においてかなりの性能向上を達成することができる。
論文 参考訳(メタデータ) (2025-11-02T17:06:49Z) - Tail-Safe Hedging: Explainable Risk-Sensitive Reinforcement Learning with a White-Box CBF--QP Safety Layer in Arbitrage-Free Markets [4.235667373386689]
Tail-Safeは、デリバティブヘッジのためのデプロイ性指向のフレームワークである。
学習コンポーネントは、IQNベースの分布批判とCVaRの目的を組み合わせる。
安全コンポーネントは、ドメイン固有の制約とともに離散時間CBF不等式を強制する。
論文 参考訳(メタデータ) (2025-10-06T07:39:45Z) - NCV: A Node-Wise Consistency Verification Approach for Low-Cost Structured Error Localization in LLM Reasoning [29.01543421437432]
我々は、ノードレベルでの軽量なバイナリ一貫性チェックとして検証をリキャストするトレーニング不要のフレームワークであるNode-wise Consistency Verification (NCV)を紹介した。
パブリックデータセットでは、NCVはベースラインよりも10%から25%改善されている。
論文 参考訳(メタデータ) (2025-10-03T08:48:04Z) - ZeroFalse: Improving Precision in Static Analysis with LLMs [0.1759008116536278]
静的アプリケーションセキュリティテスト(SAST)ツールは、現代のソフトウェア開発に不可欠なツールだが、その採用は過度の偽陽性によって損なわれている。
ZeroFalseは,大規模言語モデル(LLM)と静的解析を統合して,カバレッジを維持しながら偽陽性を減らすフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T20:07:25Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - CEC-Zero: Chinese Error Correction Solution Based on LLM [0.0]
大規模言語モデル(LLM)の最近の進歩は、例外的な中国語テキスト処理能力を示している。
本稿では,LLMを自己修正できる新しい強化学習フレームワークであるCEC-Zeroを提案する。
実験により、RL強化LLMは産業で実現可能な精度と優れたクロスドメイン一般化を実現することが示された。
論文 参考訳(メタデータ) (2025-05-14T02:35:47Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。