論文の概要: Bidirectional Transformer Reranker for Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2305.13000v1
- Date: Mon, 22 May 2023 13:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:03:51.218337
- Title: Bidirectional Transformer Reranker for Grammatical Error Correction
- Title(参考訳): 文法誤差補正用双方向変圧器
- Authors: Ying Zhang, Hidetaka Kamigaito, Manabu Okumura
- Abstract要約: 本稿では,事前学習したseq2seqモデルにより生成された候補文の確率を再推定する双方向トランスフォーマー・リランカ(BTR)を提案する。
BTRはSeq2seqスタイルのトランスフォーマーアーキテクチャを保持するが、BERTスタイルの自己アテンション機構を使用して各トークンの確率を計算する。
実験結果から、事前訓練されたセク2セックモデルT5ベースから候補をランク付けすると、T5ベース上のBTRは、CoN上で65.47と71.27F0.5のスコアを得ることができた。
- 参考スコア(独自算出の注目度): 34.94144153504719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained seq2seq models have achieved state-of-the-art results in the
grammatical error correction task. However, these models still suffer from a
prediction bias due to their unidirectional decoding. Thus, we propose a
bidirectional Transformer reranker (BTR), that re-estimates the probability of
each candidate sentence generated by the pre-trained seq2seq model. The BTR
preserves the seq2seq-style Transformer architecture but utilizes a BERT-style
self-attention mechanism in the decoder to compute the probability of each
target token by using masked language modeling to capture bidirectional
representations from the target context. For guiding the reranking, the BTR
adopts negative sampling in the objective function to minimize the
unlikelihood. During inference, the BTR gives final results after comparing the
reranked top-1 results with the original ones by an acceptance threshold.
Experimental results show that, in reranking candidates from a pre-trained
seq2seq model, T5-base, the BTR on top of T5-base could yield 65.47 and 71.27
F0.5 scores on the CoNLL-14 and BEA test sets, respectively, and yield 59.52
GLEU score on the JFLEG corpus, with improvements of 0.36, 0.76 and 0.48 points
compared with the original T5-base. Furthermore, when reranking candidates from
T5-large, the BTR on top of T5-base improved the original T5-large by 0.26
points on the BEA test set.
- Abstract(参考訳): 事前訓練されたseq2seqモデルは文法的誤り訂正タスクにおいて最先端の結果を得た。
しかし、これらのモデルは一方向の復号化のために予測バイアスに悩まされている。
そこで本稿では,事前学習したseq2seqモデルにより生成された候補文の確率を再推定する双方向トランスフォーマー再帰手法を提案する。
BTRはSeq2seqスタイルのトランスフォーマーアーキテクチャを保存しているが、デコーダ内のBERTスタイルの自己保持機構を使用して、マスク付き言語モデリングを用いて各ターゲットトークンの確率を計算し、ターゲットコンテキストから双方向表現をキャプチャする。
再ランクを導くために、BTRは、異性度を最小限に抑えるために、目的関数に負のサンプリングを採用する。
推論中、btrは再ランクされたtop-1の結果と元の結果とを受け入れしきい値で比較して最終結果を与える。
実験の結果、訓練済みのセク2セックモデルであるT5ベースから候補をランク付けすると、T5ベース上のBTRは、それぞれCoNLL-14とBEAテストセットで65.47点、71.27F0.5点、JFLEGコーパスで59.52GLEU点、オリジナルのT5ベースと比較して0.36点、0.76点、0.48点が得られた。
さらに、T5-largeから候補をランク付けすると、T5-baseのBTRはBEAテストセットでオリジナルのT5-largeを0.26ポイント改善した。
関連論文リスト
- Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Large Language Models in Targeted Sentiment Analysis [0.0]
命令調整型大言語モデル(LLM)の感情分析能力について検討する。
RuSentNE-2023の感情分析の最良の結果は、微調整されたFlan-T5-xlによって達成された。
論文 参考訳(メタデータ) (2024-04-18T17:16:16Z) - Autoregressive Score Generation for Multi-trait Essay Scoring [8.531986117865946]
自動エッセイスコア(AES)におけるマルチトレイスコア(ArTS)の自動回帰予測を提案する。
先行回帰法や分類法とは異なり、AESをスコア生成タスクとして再定義し、単一のモデルで複数のスコアを予測する。
実験の結果、ArTSの有効性が証明され、プロンプトと形質の両方で平均5%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-13T08:34:53Z) - Hausdorff Distance Matching with Adaptive Query Denoising for Rotated Detection Transformer [4.137346786534721]
両部マッチングのためのハウスドルフ距離に基づくコストを導入し、予測と基底の真理との相違をより正確に定量化する。
本稿では,2部マッチングを用いた適応型問合せ記述手法を提案し,モデル改良から抽出した雑音付き問合せを選択的に除去する。
論文 参考訳(メタデータ) (2023-05-12T16:42:54Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Second-Order Provable Defenses against Adversarial Attacks [63.34032156196848]
ネットワークの固有値が有界であれば、凸最適化を用いて$l$ノルムの証明を効率的に計算できることを示す。
認証精度は5.78%,44.96%,43.19%であった。
論文 参考訳(メタデータ) (2020-06-01T05:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。