論文の概要: RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian
- arxiv url: http://arxiv.org/abs/2604.19593v2
- Date: Wed, 22 Apr 2026 16:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.464561
- Title: RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian
- Title(参考訳): RoLegalGEC:ルーマニア語における法域文法的誤り検出と補正データセット
- Authors: Mircea Timpuriu, Mihaela-Claudia Cercel, Dumitru-Clementin Cercel,
- Abstract要約: 我々の知る限り、法域における文法的誤りの検出と修正のための最初のルーマニア語並列データセットRoLegalGECを紹介する。
我々は、データセットを、文法的誤りの検出と修正の両方に有用なツールに変換する、いくつかのニューラルネットワークモデルを評価する。
- 参考スコア(独自算出の注目度): 2.859324824091086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The importance of clear and correct text in legal documents cannot be understated, and, consequently, a grammatical error correction tool meant to assist a professional in the law must have the ability to understand the possible errors in the context of a legal environment, correcting them accordingly, and implicitly needs to be trained in the same environment, using realistic legal data. However, the manually annotated data required by such a process is in short supply for languages such as Romanian, much less for a niche domain. The most common approach is the synthetic generation of parallel data; however, it requires a structured understanding of the Romanian grammar. In this paper, we introduce, to our knowledge, the first Romanian-language parallel dataset for the detection and correction of grammatical errors in the legal domain, RoLegalGEC, which aggregates 350,000 examples of errors in legal passages, along with error annotations. Moreover, we evaluate several neural network models that transform the dataset into a valuable tool for both detecting and correcting grammatical errors, including knowledge-distillation Transformers, sequence tagging architectures for detection, and a variety of pre-trained text-to-text Transformer models for correction. We consider that the set of models, together with the novel RoLegalGEC dataset, will enrich the resource base for further research on Romanian.
- Abstract(参考訳): 法律文書における明確かつ正しいテキストの重要性は過小評価されず、したがって、法律の専門家を支援するための文法的誤り訂正ツールは、法的環境の文脈における潜在的な誤りを理解し、それに従って修正し、現実的な法的データを用いて暗黙的に同じ環境で訓練する必要がある。
しかし、そのようなプロセスで必要とされる手動の注釈付きデータはルーマニア語のような言語では不足しており、ニッチなドメインでははるかに少ない。
最も一般的なアプローチは、並列データの合成生成であるが、ルーマニア文法の構造化された理解が必要である。
本稿では,法域における文法的誤りの検出と訂正のための最初のルーマニア語並列データセットRoLegalGECについて紹介する。
さらに、知識蒸留変換器、検出のためのシーケンスタグ付けアーキテクチャ、修正のための様々な事前訓練されたテキスト-テキスト変換器モデルなど、データセットを文法エラーの検出と修正のための貴重なツールに変換するニューラルネットワークモデルを評価した。
我々は、新しいRoLegalGECデータセットとともに、このモデルの集合がルーマニア語に関するさらなる研究のために資源基盤を充実させると考えている。
関連論文リスト
- CLFEC: A New Task for Unified Linguistic and Factual Error Correction in paragraph-level Chinese Professional Writing [8.863678336953036]
段落レベルの漢文では、言語的(単語/文法/句読点)と事実的誤りがしばしば共起し、相互作用する。
本稿では,CLFEC ( Chinese Linguistic & Factual Error Correction) について紹介する。
我々は、現在の状況、財務、法律、医学にまたがる混在する多分野の中国の専門的著作データセットを構築した。
論文 参考訳(メタデータ) (2026-02-27T09:36:05Z) - Design of intelligent proofreading system for English translation based on CNN and BERT [5.498056383808144]
本稿では,ロバストな証明読解のための新しいハイブリッド手法を提案する。
畳み込みニューラルネットワーク(CNN)と変換器からの双方向表現(BERT)を組み合わせる。
実験は90%の精度、89.37%のF1、および16.24%のMSEを達成し、最近の証明読解技術を10%以上上回った。
論文 参考訳(メタデータ) (2025-06-05T09:34:42Z) - Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。
PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。
PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文 参考訳(メタデータ) (2025-03-06T09:14:02Z) - GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文 参考訳(メタデータ) (2023-09-20T14:25:44Z) - Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。