論文の概要: Character Transformations for Non-Autoregressive GEC Tagging
- arxiv url: http://arxiv.org/abs/2111.09280v1
- Date: Wed, 17 Nov 2021 18:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:45:33.287667
- Title: Character Transformations for Non-Autoregressive GEC Tagging
- Title(参考訳): 非自己回帰型GECタグの文字変換
- Authors: Milan Straka, Jakub N\'aplava, Jana Strakov\'a
- Abstract要約: 本稿では,文字変換を自動生成する文字ベース非自己回帰GEC手法を提案する。
単語置換編集が最適であり, 形態学的に豊かな言語における綴り, 発音, 誤りの爆発を引き起こす可能性がある。
チェコ語、ドイツ語、ロシア語の文字変換モデルを訓練し、自己回帰システムと比較して、しっかりとした結果と劇的なスピードアップを達成した。
- 参考スコア(独自算出の注目度): 3.2729625923640278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a character-based nonautoregressive GEC approach, with
automatically generated character transformations. Recently, per-word
classification of correction edits has proven an efficient, parallelizable
alternative to current encoder-decoder GEC systems. We show that word
replacement edits may be suboptimal and lead to explosion of rules for
spelling, diacritization and errors in morphologically rich languages, and
propose a method for generating character transformations from GEC corpus.
Finally, we train character transformation models for Czech, German and
Russian, reaching solid results and dramatic speedup compared to autoregressive
systems. The source code is released at
https://github.com/ufal/wnut2021_character_transformations_gec.
- Abstract(参考訳): 本稿では,文字変換を自動生成する文字ベース非自己回帰GEC手法を提案する。
近年,修正編集の単語単位の分類は,現在のエンコーダデコーダGECシステムに代わる,効率的かつ並列化可能な代替手段であることが証明されている。
本稿では,単語置換編集が最適であり,形態的にリッチな言語における綴り,発音,誤りなどの規則の爆発につながることを示し,GECコーパスから文字変換を生成する方法を提案する。
最後に,チェコ語,ドイツ語,ロシア語の文字変換モデルを訓練し,自己回帰システムと比較し,確固とした結果と劇的なスピードアップを達成した。
ソースコードはhttps://github.com/ufal/wnut2021_character_transformations_gecで公開されている。
関連論文リスト
- Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation [8.225408779913712]
画像セグメンテーションの参照は、画像から自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
従来のトランスフォーマーデコーダは、より深い層で言語情報を歪め、最適な結果をもたらす。
本稿では,変換器デコーダのマルチモーダル機能を反復的に校正するモデルであるCRFormerを紹介する。
論文 参考訳(メタデータ) (2024-04-12T07:13:32Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - CSynGEC: Incorporating Constituent-based Syntax for Grammatical Error
Correction with a Tailored GEC-Oriented Parser [22.942594068051488]
この研究は、他の主流構文形式、すなわち構成型構文を考慮に入れている。
まず,非文法文の誤りに対応するための拡張構成型構文スキームを提案する。
そして,非文法文の区切り木を自動的に取得し,GCC指向の区切り木を訓練する。
論文 参考訳(メタデータ) (2022-11-15T14:11:39Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Instantaneous Grammatical Error Correction with Shallow Aggressive
Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。
SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。
英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-09T10:30:59Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。