論文の概要: Introducing OmniGEC: A Silver Multilingual Dataset for Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2509.14504v1
- Date: Thu, 18 Sep 2025 00:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.009836
- Title: Introducing OmniGEC: A Silver Multilingual Dataset for Grammatical Error Correction
- Title(参考訳): OmniGECの導入: 文法的誤り訂正のための銀の多言語データセット
- Authors: Roman Kovalchuk, Mariana Romanyshyn, Petro Ivaniuk,
- Abstract要約: 我々は、文法的誤り訂正(GEC)タスクのための多言語銀標準データセットの集合であるOmniGECを紹介する。
これらのデータセットは、多言語GECソリューションの開発を促進し、多言語GECに英語GECソリューションを適用する際のデータギャップを埋めるのに役立つ。
データセットのテキストは、3つのソースから作成されている。ウィキペディアは11のターゲット言語を編集し、Redditは11のターゲット言語でサブレディットを編集し、そしてウクライナのみのUberText 2.0ソーシャルメディアコーパスである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce OmniGEC, a collection of multilingual silver-standard datasets for the task of Grammatical Error Correction (GEC), covering eleven languages: Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Slovene, Swedish, and Ukrainian. These datasets facilitate the development of multilingual GEC solutions and help bridge the data gap in adapting English GEC solutions to multilingual GEC. The texts in the datasets originate from three sources: Wikipedia edits for the eleven target languages, subreddits from Reddit in the eleven target languages, and the Ukrainian-only UberText 2.0 social media corpus. While Wikipedia edits were derived from human-made corrections, the Reddit and UberText 2.0 data were automatically corrected with the GPT-4o-mini model. The quality of the corrections in the datasets was evaluated both automatically and manually. Finally, we fine-tune two open-source large language models - Aya-Expanse (8B) and Gemma-3 (12B) - on the multilingual OmniGEC corpora and achieve state-of-the-art (SOTA) results for paragraph-level multilingual GEC. The dataset collection and the best-performing models are available on Hugging Face.
- Abstract(参考訳): 本稿では,チェコ語,英語,エストニア語,ドイツ語,ギリシア語,アイスランド語,イタリア語,ラトビア語,スロベニア語,スウェーデン語,ウクライナ語の11言語を対象として,文法的誤り訂正(GEC)タスクのための多言語銀標準データセットのコレクションであるOmniGECを紹介する。
これらのデータセットは、多言語GECソリューションの開発を促進し、多言語GECに英語GECソリューションを適用する際のデータギャップを埋めるのに役立つ。
データセットのテキストは、3つのソースから作成されている。ウィキペディアは11のターゲット言語を編集し、Redditは11のターゲット言語でサブレディットを編集し、そしてウクライナのみのUberText 2.0ソーシャルメディアコーパスである。
ウィキペディアの編集は人為的な修正に由来するが、RedditとUberText 2.0のデータはGPT-4o-miniモデルで自動的に修正された。
データセットの修正の質を自動および手動で評価した。
最後に,多言語OmniGECコーパス上で,Aya-Expanse (8B) とGemma-3 (12B) の2つのオープンソースの大言語モデルを微調整し,段落レベルの多言語GECに対してSOTA(State-of-the-art)結果を得る。
データセットの収集と最高のパフォーマンスモデルは、Hugging Faceで利用可能だ。
関連論文リスト
- LLM-based Code-Switched Text Generation for Grammatical Error Correction [3.4457319208816224]
本研究では,文法的誤り訂正システムをコードスイッチング(CSW)テキストに適用する複雑性について検討する。
我々は、第二言語学習者として、英語のCSWデータセットから最先端のECCシステムを評価する。
単言語テキストとCSWテキストの文法的誤りを補正できるモデルを開発する。
論文 参考訳(メタデータ) (2024-10-14T10:07:29Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文 参考訳(メタデータ) (2023-05-24T05:12:58Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - UA-GEC: Grammatical Error Correction and Fluency Corpus for the
Ukrainian Language [0.0]
これはウクライナ語のための最初の文法的誤り訂正コーパスです。
プロの証明リーダーがコーパスを訂正し、流血、文法、句読点、綴りに関する誤りを注釈した。
このコーパスはウクライナのGECシステムの開発と評価に使用できます。
論文 参考訳(メタデータ) (2021-03-31T11:18:36Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。