論文の概要: Text Simplification by Tagging
- arxiv url: http://arxiv.org/abs/2103.05070v1
- Date: Mon, 8 Mar 2021 20:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 17:47:26.431296
- Title: Text Simplification by Tagging
- Title(参考訳): タグ付けによるテキスト簡略化
- Authors: Kostiantyn Omelianchuk, Vipul Raheja, Oleksandr Skurzhanskyi
- Abstract要約: シーケンスタギングに基づくシンプルで効率的なテキスト簡略化システムであるTSTを提案する。
本システムでは,既存のシステム上でのトレーニングや推論において,簡易なデータ拡張と微調整を行う。
現在のテキスト簡略化システムよりも11倍以上高速な推論速度を実現します。
- 参考スコア(独自算出の注目度): 21.952293614293392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edit-based approaches have recently shown promising results on multiple
monolingual sequence transduction tasks. In contrast to conventional
sequence-to-sequence (Seq2Seq) models, which learn to generate text from
scratch as they are trained on parallel corpora, these methods have proven to
be much more effective since they are able to learn to make fast and accurate
transformations while leveraging powerful pre-trained language models. Inspired
by these ideas, we present TST, a simple and efficient Text Simplification
system based on sequence Tagging, leveraging pre-trained Transformer-based
encoders. Our system makes simplistic data augmentations and tweaks in training
and inference on a pre-existing system, which makes it less reliant on large
amounts of parallel training data, provides more control over the outputs and
enables faster inference speeds. Our best model achieves near state-of-the-art
performance on benchmark test datasets for the task. Since it is fully
non-autoregressive, it achieves faster inference speeds by over 11 times than
the current state-of-the-art text simplification system.
- Abstract(参考訳): 編集ベースのアプローチは、最近、複数の単言語シーケンス変換タスクで有望な結果を示している。
従来のシークエンス・ツー・シークエンス(Seq2Seq)モデルとは対照的に、これらの手法はより高速で正確な変換を学べると同時に、強力な事前訓練された言語モデルを活用することができるため、スクラッチからテキストを生成することがより効果的であることが証明されている。
TSTは、事前に訓練されたTransformerベースのエンコーダを活用して、シーケンスタグに基づくシンプルで効率的なテキスト簡略化システムです。
本システムでは,既存システムにおける簡易なデータ拡張とトレーニングおよび推論の微調整を行い,大量の並列トレーニングデータへの依存を軽減し,出力の制御を向上し,高速な推論速度を実現する。
我々の最良のモデルは、タスクのベンチマークテストデータセットにおける最先端のパフォーマンスをほぼ達成する。
フルオートレグレッシブなので、現在のテキスト簡略化システムよりも11倍以上高速な推論速度を実現します。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - KEST: Kernel Distance Based Efficient Self-Training for Improving
Controllable Text Generation [24.47531522553703]
我々は,これらの問題に対処するための,新規かつ効率的な自己学習フレームワークであるKESTを提案する。
KESTは、標準的なクロスエントロピーではなくカーネルベースの損失を利用して、共有非自己回帰生成器によって生成されたソフトな擬似テキストから学習する。
3つの制御可能な生成タスクの実験により、KESTは、複数の強いベースラインに対して、同等のテキスト流速と生成の多様性を維持しながら、制御精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-06-17T19:40:57Z) - HLATR: Enhance Multi-stage Text Retrieval with Hybrid List Aware
Transformer Reranking [16.592276887533714]
HLATR(Hybrid List Aware Transformer Re rank)は、検索機能とステージ機能の両方を組み込んだ後継モジュールである。
HLATRは軽量で、既存のテキスト検索システムと容易に並列化できる。
2つの大規模テキスト検索データセットの実証実験により、HLATRは既存の多段階テキスト検索手法のランク付け性能を効率的に向上できることが示された。
論文 参考訳(メタデータ) (2022-05-21T11:38:33Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - On Adversarial Robustness of Synthetic Code Generation [1.2559148369195197]
本論文は, 逆数例の異なるクラスを通して, 有意なデータセットバイアスの存在を示す。
バイアスを低減し,有効性を示すために,いくつかのデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T09:37:48Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。