論文の概要: How May I Help You? Using Neural Text Simplification to Improve
Downstream NLP Tasks
- arxiv url: http://arxiv.org/abs/2109.04604v2
- Date: Tue, 14 Sep 2021 06:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-19 01:11:17.133474
- Title: How May I Help You? Using Neural Text Simplification to Improve
Downstream NLP Tasks
- Title(参考訳): どうお手伝いしますか。
ニューラルネットワークによる下流NLPタスクの改善
- Authors: Hoang Van, Zheng Tang, Mihai Surdeanu
- Abstract要約: 我々は、予測時の入力テキストの簡素化と、トレーニング中にマシンに追加情報を提供するデータ拡張の2つの方法により、ニューラルTSの使用を評価した。
後者のシナリオは,2つの異なるデータセット上でのマシン性能に肯定的な影響を与えることを実証する。
特に後者のTSはLSTM(1.82-1.98%)とSpanBERT(0.7-1.3%)のTACREDにおける抽出性能を改善している。
- 参考スコア(独自算出の注目度): 20.370296294233313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The general goal of text simplification (TS) is to reduce text complexity for
human consumption. This paper investigates another potential use of neural TS:
assisting machines performing natural language processing (NLP) tasks. We
evaluate the use of neural TS in two ways: simplifying input texts at
prediction time and augmenting data to provide machines with additional
information during training. We demonstrate that the latter scenario provides
positive effects on machine performance on two separate datasets. In
particular, the latter use of TS improves the performances of LSTM (1.82-1.98%)
and SpanBERT (0.7-1.3%) extractors on TACRED, a complex, large-scale,
real-world relation extraction task. Further, the same setting yields
improvements of up to 0.65% matched and 0.62% mismatched accuracies for a BERT
text classifier on MNLI, a practical natural language inference dataset.
- Abstract(参考訳): text simplification(ts)の一般的な目標は、人間の消費に対するテキストの複雑さを減らすことである。
本稿では,自然言語処理(nlp)タスクを行う機械を支援するニューラルtsについて検討する。
我々は、予測時の入力テキストの簡素化と、トレーニング中にマシンに追加情報を提供するデータ拡張の2つの方法により、ニューラルTSの使用を評価する。
後者のシナリオが2つの別々のデータセットのマシン性能にプラスの効果をもたらすことを実証する。
特に後者のTSはLSTM(1.82-1.98%)とSpanBERT(0.7-1.3%)のTACREDにおける抽出性能を改善している。
さらに、この設定は、実際の自然言語推論データセットであるMNLI上のBERTテキスト分類器に対して、最大0.65%の一致と0.62%の誤一致の精度の改善をもたらす。
関連論文リスト
- Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data
Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。
公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文 参考訳(メタデータ) (2023-03-02T12:18:53Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder [8.88137815551529]
テキストからテキストへの補助的なタスクのセットと共同でASRモデルを訓練する。
ASRのみの基準線上でWERを16%, 20%の減少率で比較検討した。
我々は、Librispeechデータ上でマスク付き言語モデルを訓練したり、補助タスクとして機械翻訳を使用したりすることで、さらなる改善を実現している。
論文 参考訳(メタデータ) (2022-02-12T11:35:59Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。