論文の概要: CLFEC: A New Task for Unified Linguistic and Factual Error Correction in paragraph-level Chinese Professional Writing
- arxiv url: http://arxiv.org/abs/2602.23845v1
- Date: Fri, 27 Feb 2026 09:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.349878
- Title: CLFEC: A New Task for Unified Linguistic and Factual Error Correction in paragraph-level Chinese Professional Writing
- Title(参考訳): CLFEC : 中国語専門書記における言語的・実誤りの統一化のための新しい課題
- Authors: Jian Kai, Zidong Zhang, Jiwen Chen, Zhengxiang Wu, Songtao Sun, Fuyang Li, Yang Cao, Qiang Liu,
- Abstract要約: 段落レベルの漢文では、言語的(単語/文法/句読点)と事実的誤りがしばしば共起し、相互作用する。
本稿では,CLFEC ( Chinese Linguistic & Factual Error Correction) について紹介する。
我々は、現在の状況、財務、法律、医学にまたがる混在する多分野の中国の専門的著作データセットを構築した。
- 参考スコア(独自算出の注目度): 8.863678336953036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese text correction has traditionally focused on spelling and grammar, while factual error correction is usually treated separately. However, in paragraph-level Chinese professional writing, linguistic (word/grammar/punctuation) and factual errors frequently co-occur and interact, making unified correction both necessary and challenging. This paper introduces CLFEC (Chinese Linguistic & Factual Error Correction), a new task for joint linguistic and factual correction. We construct a mixed, multi-domain Chinese professional writing dataset spanning current affairs, finance, law, and medicine. We then conduct a systematic study of LLM-based correction paradigms, from prompting to retrieval-augmented generation (RAG) and agentic workflows. The analysis reveals practical challenges, including limited generalization of specialized correction models, the need for evidence grounding for factual repair, the difficulty of mixed-error paragraphs, and over-correction on clean inputs. Results further show that handling linguistic and factual Error within the same context outperform decoupled processes, and that agentic workflows can be effective with suitable backbone models. Overall, our dataset and empirical findings provide guidance for building reliable, fully automatic proofreading systems in industrial settings.
- Abstract(参考訳): 漢文訂正は伝統的に綴りと文法に焦点を合わせてきたが、事実的誤り訂正は通常別々に扱われる。
しかし、段落レベルの漢文では、言語的(単語/文法/句読点)と事実的誤りがしばしば共起して相互作用し、統一的な修正は必要かつ困難である。
本稿では,CLFEC ( Chinese Linguistic & Factual Error Correction) について紹介する。
我々は、現在の状況、財務、法律、医学にまたがる混在する多分野の中国の専門的著作データセットを構築した。
次に、LLMに基づく修正パラダイムを体系的に研究し、検索強化生成(RAG)やエージェントワークフローの促進を行う。
この分析は、特殊補正モデルの限定的な一般化、事実修復の根拠となる証拠の必要性、混合エラー段落の難しさ、クリーン入力の過度な補正など、実践的な課題を明らかにしている。
さらに、同じ文脈における言語的および事実的エラーの処理は、分離されたプロセスよりも優れており、エージェントワークフローは適切なバックボーンモデルで有効であることを示す。
全体として、我々のデータセットと経験的発見は、産業環境で信頼性の高い完全自動証明システムを構築するためのガイダンスを提供する。
関連論文リスト
- TranslationCorrect: A Unified Framework for Machine Translation Post-Editing with Predictive Error Assistance [5.306276499628096]
機械翻訳(MT)後編集と研究データ収集は、しばしば非効率な翻訳に頼っている。
本稿ではこれらのタスクを合理化するための統合フレームワークであるTranslationCorrectを紹介する。
NLLBのようなモデルを使ったMT生成、XCOMETやLLM APIのようなモデルを使った自動エラー予測(詳細な推論を提供する)、単一環境における直感的な後編集インターフェースを組み合わせたものだ。
論文 参考訳(メタデータ) (2025-06-23T06:38:49Z) - Chain of Correction for Full-text Speech Recognition with Large Language Models [21.37485126269991]
Chain of Correction (CoC) は、セグメンテーションごとにエラーセグメントを補正するマルチターンチャットフォーマットである。
実験により、CoCはフルテキストASR出力の修正において、ベースラインやベンチマークシステムよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-04-02T09:06:23Z) - Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。
PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。
PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文 参考訳(メタデータ) (2025-03-06T09:14:02Z) - Loss-Aware Curriculum Learning for Chinese Grammatical Error Correction [21.82403446634522]
中国語の文法的誤り訂正(CGEC)は、入力された中国語文の誤りを検出し、訂正することを目的としている。
現在のアプローチでは、修正の難しさはインスタンスによって異なり、これらのサンプルを等しく扱うことは無視されている。
この問題に対処する多粒度カリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T08:11:49Z) - Learning from Mistakes: Self-correct Adversarial Training for Chinese Unnatural Text Correction [6.426690600216749]
不自然なテキスト補正は、文中のスペルエラーや逆転摂動エラーを自動的に検出し、修正することを目的としている。
既存の方法は、ミスを修正するための微調整や敵の訓練に頼っている。
我々はtextbfMIstextbfTakes から textbfLearntextbfIng の自己正逆学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-23T04:58:58Z) - Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。