論文の概要: Enhancing Text Editing for Grammatical Error Correction: Arabic as a Case Study
- arxiv url: http://arxiv.org/abs/2503.00985v1
- Date: Sun, 02 Mar 2025 18:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:28.241493
- Title: Enhancing Text Editing for Grammatical Error Correction: Arabic as a Case Study
- Title(参考訳): 文法的誤り訂正のためのテキスト編集の強化:アラビア語を事例として
- Authors: Bashar Alhafni, Nizar Habash,
- Abstract要約: データから直接編集タグを導出するテキスト編集手法を導入し、言語固有の編集の必要性を排除した。
我々はその効果をアラビア語、古典的、形態学的に豊かな言語で実証し、異なる編集表現がモデル性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 11.972975896116383
- License:
- Abstract: Text editing frames grammatical error correction (GEC) as a sequence tagging problem, where edit tags are assigned to input tokens, and applying these edits results in the corrected text. This approach has gained attention for its efficiency and interpretability. However, while extensively explored for English, text editing remains largely underexplored for morphologically rich languages like Arabic. In this paper, we introduce a text editing approach that derives edit tags directly from data, eliminating the need for language-specific edits. We demonstrate its effectiveness on Arabic, a diglossic and morphologically rich language, and investigate the impact of different edit representations on model performance. Our approach achieves SOTA results on two Arabic GEC benchmarks and performs on par with SOTA on two others. Additionally, our models are over six times faster than existing Arabic GEC systems, making our approach more practical for real-world applications. Finally, we explore ensemble models, demonstrating how combining different models leads to further performance improvements. We make our code, data, and pretrained models publicly available.
- Abstract(参考訳): テキスト編集フレームは、編集タグを入力トークンに割り当てるシーケンスタグ付け問題として文法エラー補正(GEC)を行い、それらの編集結果を修正テキストに適用する。
このアプローチは効率性と解釈可能性に注目を集めている。
しかし、英語については広く研究されているが、アラビア語のような形態学的に豊かな言語については、テキスト編集はいまだに未熟である。
本稿では,データから直接編集タグを抽出し,言語固有の編集を不要とするテキスト編集手法を提案する。
我々はその効果をアラビア語、古典的、形態学的に豊かな言語で実証し、異なる編集表現がモデル性能に与える影響について検討する。
提案手法は2つのアラビアGECベンチマークでSOTA結果を達成し、他の2つのベンチマークでSOTAと同等に動作する。
さらに、我々のモデルは既存のアラビア語のGECシステムより6倍以上高速で、現実のアプリケーションではより実用的です。
最後に、アンサンブルモデルについて検討し、異なるモデルを組み合わせることでパフォーマンスがさらに向上することを示す。
コード、データ、事前訓練されたモデルを公開しています。
関連論文リスト
- K-Edit: Language Model Editing with Contextual Knowledge Awareness [71.73747181407323]
知識に基づくモデル編集は、大きな言語モデルの重みを正確に修正することを可能にする。
我々は、文脈的に一貫した知識編集を生成するための効果的なアプローチであるK-Editを提案する。
論文 参考訳(メタデータ) (2025-02-15T01:35:13Z) - Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。
Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。
1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-23T13:08:48Z) - We're Calling an Intervention: Exploring the Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、言語モデルの既存バイアスとの相互作用と、いくつかの種類の言語的変動を近似する介入を設計する。
学習データのサイズや性質の異なる言語モデル適応時の介入を適用することで、知識伝達がいつ成功するかについて重要な洞察を得ることができる。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - mEdIT: Multilingual Text Editing via Instruction Tuning [8.354138611160117]
mEdITは、執筆支援のための最先端のテキスト編集モデルである。
我々は、公開されている複数人の注釈付きテキスト編集データセットからデータをキュレートしてmEdITを構築する。
我々は,mEdITが多言語ベースライン上の新しい言語に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2024-02-26T10:33:36Z) - DUnE: Dataset for Unified Editing [3.7346004746366384]
自然言語文を編集するDUnE-an編集ベンチマークを導入する。
検索強化言語モデリングは、特殊な編集技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T18:56:14Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文 参考訳(メタデータ) (2023-05-24T05:12:58Z) - Text Generation with Text-Editing Models [78.03750739936956]
このチュートリアルは、テキスト編集モデルと最先端のアプローチの概要を提供する。
生産化に関わる課題と、これらのモデルが幻覚や偏見を軽減するためにどのように使用できるかについて議論する。
論文 参考訳(メタデータ) (2022-06-14T17:58:17Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Language Anisotropic Cross-Lingual Model Editing [61.51863835749279]
既存の作業はモノリンガルのシナリオのみを研究しており、言語間で同時に編集を行うための言語間転送能力が欠如している。
本稿では,並列コーパスを用いた一言語モデル編集手法を言語間シナリオに適用する枠組みを提案する。
本研究では,複数言語への編集の伝播における単言語ベースラインの失敗と,提案言語異方性モデル編集の有効性を実証的に示す。
論文 参考訳(メタデータ) (2022-05-25T11:38:12Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。