論文の概要: RedPenNet for Grammatical Error Correction: Outputs to Tokens,
Attentions to Spans
- arxiv url: http://arxiv.org/abs/2309.10898v1
- Date: Tue, 19 Sep 2023 19:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 17:54:39.660818
- Title: RedPenNet for Grammatical Error Correction: Outputs to Tokens,
Attentions to Spans
- Title(参考訳): 文法的誤り訂正のためのRedPenNet:Tokens、Atentions to Spans
- Authors: Bohdan Didenko (1), Andrii Sameliuk (1) ((1) WebSpellChecker LLC /
Ukraine)
- Abstract要約: RedPenNetは、Sequence-To-Editsモデルで提示されるアーキテクチャ上の冗長性とパラメトリックな冗長性を低減することを目的としている。
私たちのモデルはBEA 2019(テスト)で77.60ドルのF_0.5$スコアを獲得します。
本研究では,ウクライナ語の文法的誤り訂正問題に対処するためにRedPenNetアプローチを適用することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The text editing tasks, including sentence fusion, sentence splitting and
rephrasing, text simplification, and Grammatical Error Correction (GEC), share
a common trait of dealing with highly similar input and output sequences. This
area of research lies at the intersection of two well-established fields: (i)
fully autoregressive sequence-to-sequence approaches commonly used in tasks
like Neural Machine Translation (NMT) and (ii) sequence tagging techniques
commonly used to address tasks such as Part-of-speech tagging, Named-entity
recognition (NER), and similar. In the pursuit of a balanced architecture,
researchers have come up with numerous imaginative and unconventional
solutions, which we're discussing in the Related Works section. Our approach to
addressing text editing tasks is called RedPenNet and is aimed at reducing
architectural and parametric redundancies presented in specific
Sequence-To-Edits models, preserving their semi-autoregressive advantages. Our
models achieve $F_{0.5}$ scores of 77.60 on the BEA-2019 (test), which can be
considered as state-of-the-art the only exception for system combination and
67.71 on the UAGEC+Fluency (test) benchmarks.
This research is being conducted in the context of the UNLP 2023 workshop,
where it was presented as a paper as a paper for the Shared Task in Grammatical
Error Correction (GEC) for Ukrainian. This study aims to apply the RedPenNet
approach to address the GEC problem in the Ukrainian language.
- Abstract(参考訳): 文の融合、文の分割と再構成、テキストの単純化、文法的誤り訂正(gec)を含むテキスト編集タスクは、非常に類似した入力および出力シーケンスを扱う共通の特徴を共有している。
この研究領域は2つの確立された分野の交差点にある。
(i)ニューラルマシン翻訳(NMT)やタスクでよく使われる完全自己回帰的シーケンス・ツー・シーケンスアプローチ
(ii)パート・オブ・スパイチ・タギング、名前付きエンティティ認識(ner)等のタスクに対処するために一般的に用いられるシーケンスタギング技術。
バランスのとれたアーキテクチャを追求する中で、研究者たちは、関係する作業のセクションで議論している、想像力と非伝統的なソリューションを数多く思いついた。
テキスト編集タスクに対処するアプローチはredpennetと呼ばれ、特定のシーケンシャル・トゥ・エディットモデルで提示されるアーキテクチャ的およびパラメトリックな冗長性を低減し、セミ自己回帰的な利点を保ちます。
我々のモデルはBEA-2019(テスト)で77.60ドルのF_{0.5}$スコアを獲得し、UAGEC+Fluency(テスト)ベンチマークで67.71のシステム組み合わせの唯一の例外とみなすことができる。
この研究はUNLP 2023ワークショップの文脈で行われており、ウクライナ語における文法的誤り訂正における共有タスク(GEC)の論文として論文として提示された。
本研究の目的は、ウクライナ語におけるGEC問題に対処するためにRedPenNetアプローチを適用することである。
関連論文リスト
- Multi-head Sequence Tagging Model for Grammatical Error Correction [31.538895931875565]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、ソースシーケンスとターゲットシーケンスのマッピングである。
現在のシーケンスタギングアプローチでは、あるタスクにレーザーを集中させることで、幅広い文法的誤りを処理できるという問題がある。
本稿では,学習データを効果的に活用し,関連する課題訓練信号からの情報を活用するための,新しいマルチヘッド・マルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:01:06Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - CSynGEC: Incorporating Constituent-based Syntax for Grammatical Error
Correction with a Tailored GEC-Oriented Parser [22.942594068051488]
この研究は、他の主流構文形式、すなわち構成型構文を考慮に入れている。
まず,非文法文の誤りに対応するための拡張構成型構文スキームを提案する。
そして,非文法文の区切り木を自動的に取得し,GCC指向の区切り木を訓練する。
論文 参考訳(メタデータ) (2022-11-15T14:11:39Z) - ETMS@IITKGP at SemEval-2022 Task 10: Structured Sentiment Analysis Using
A Generative Approach [1.219140169445581]
構造化感性分析(Structured Sentiment Analysis, SSA)は、テキスト中の意見の抽出を扱う。
本稿では,SemEval共有タスクであるSSAを解くための新しい統合生成手法を提案する。
我々はモノリンガルサブタスクとクロスランガルサブタスクの両方に対して厳格な実験を行い、両方の設定でリーダーボード上で競争力のあるセンティメントF1スコアを達成する。
論文 参考訳(メタデータ) (2022-05-01T10:39:53Z) - Language Semantics Interpretation with an Interaction-based Recurrent
Neural Networks [0.0]
本稿では,新しいインフルエンススコア (I-score) と,BDA (Backward Dropping Algorithm) と呼ばれるグリージー検索アルゴリズムと,"Dagger Technique" と呼ばれる特徴工学的手法を提案する。
提案手法は,他の人気ピアと比較して81%の誤差削減率で予測性能を向上させるために適用された。
論文 参考訳(メタデータ) (2021-11-02T00:39:21Z) - LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence
Semantic Matching [66.65398852962177]
文意味マッチングのための新しい動的再読ネットワーク(DRr-Net)を開発した。
DRr-Netをローカルに認識する動的再読み取り注意ネット(LadRa-Net)に拡張する
2つの一般的な文意味マッチングタスクの実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-08-06T02:07:04Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - Boundary-assisted Region Proposal Networks for Nucleus Segmentation [89.69059532088129]
大量の核が混在しているため、機械学習モデルはうまく機能しない。
我々は、堅牢なインスタンスレベルの核分割を実現する境界支援領域提案ネットワーク(BRP-Net)を考案する。
論文 参考訳(メタデータ) (2020-06-04T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。