論文の概要: Text Smoothing: Enhance Various Data Augmentation Methods on Text
Classification Tasks
- arxiv url: http://arxiv.org/abs/2202.13840v1
- Date: Mon, 28 Feb 2022 14:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:50:04.715955
- Title: Text Smoothing: Enhance Various Data Augmentation Methods on Text
Classification Tasks
- Title(参考訳): テキストの平滑化:テキスト分類作業における各種データ拡張手法の強化
- Authors: Xing Wu, Chaochen Gao, Meng Lin, Liangjun Zang, Zhongyuan Wang,
Songlin Hu
- Abstract要約: 滑らかな表現は、事前訓練されたマスキング言語モデルから得られる候補トークンの確率である。
本研究では,テキストの平滑化という効率的なデータ拡張手法を提案し,文を1ホット表現から制御可能な平滑表現に変換する。
- 参考スコア(独自算出の注目度): 47.5423959822716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Before entering the neural network, a token is generally converted to the
corresponding one-hot representation, which is a discrete distribution of the
vocabulary. Smoothed representation is the probability of candidate tokens
obtained from a pre-trained masked language model, which can be seen as a more
informative substitution to the one-hot representation. We propose an efficient
data augmentation method, termed text smoothing, by converting a sentence from
its one-hot representation to a controllable smoothed representation. We
evaluate text smoothing on different benchmarks in a low-resource regime.
Experimental results show that text smoothing outperforms various mainstream
data augmentation methods by a substantial margin. Moreover, text smoothing can
be combined with those data augmentation methods to achieve better performance.
- Abstract(参考訳): ニューラルネットワークに入る前に、トークンは一般に、語彙の離散分布である対応する1つのホット表現に変換される。
スムース表現は、事前訓練されたマスク付き言語モデルから得られる候補トークンの確率であり、これはワンホット表現のより情報的な置換と見なすことができる。
本研究では,テキストの平滑化という効率的なデータ拡張手法を提案し,文を1ホット表現から制御可能な平滑表現に変換する。
低リソース方式で異なるベンチマークでテキストの平滑化を評価する。
実験の結果,テキスト平滑化は様々な主流データ拡張手法をかなり上回っていることがわかった。
さらに、テキストの平滑化とこれらのデータ拡張手法を組み合わせることで、パフォーマンスが向上する。
関連論文リスト
- TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers [2.7651063843287718]
TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
論文 参考訳(メタデータ) (2024-06-06T18:28:50Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - An Intelligent CNN-VAE Text Representation Technology Based on Text
Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。
提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文 参考訳(メタデータ) (2020-08-28T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。