論文の概要: Iterative Mask Filling: An Effective Text Augmentation Method Using
Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2401.01830v1
- Date: Wed, 3 Jan 2024 16:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:34:43.598688
- Title: Iterative Mask Filling: An Effective Text Augmentation Method Using
Masked Language Modeling
- Title(参考訳): Iterative Mask Filling: Masked Language Modeling を用いた効果的なテキスト拡張手法
- Authors: Himmet Toprak Kesgin, Mehmet Fatih Amasyali
- Abstract要約: 本稿では,変換器を用いたBERTモデルのフィル・マスク機能を利用した新しいテキスト拡張手法を提案する。
本手法では,文中の単語を反復的にマスキングし,言語モデル予測に置き換える。
実験の結果,提案手法は,特にトピック分類データセットにおいて,性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is an effective technique for improving the performance of
machine learning models. However, it has not been explored as extensively in
natural language processing (NLP) as it has in computer vision. In this paper,
we propose a novel text augmentation method that leverages the Fill-Mask
feature of the transformer-based BERT model. Our method involves iteratively
masking words in a sentence and replacing them with language model predictions.
We have tested our proposed method on various NLP tasks and found it to be
effective in many cases. Our results are presented along with a comparison to
existing augmentation methods. Experimental results show that our proposed
method significantly improves performance, especially on topic classification
datasets.
- Abstract(参考訳): データ拡張は、機械学習モデルのパフォーマンスを改善する効果的な技術である。
しかし、自然言語処理(NLP)ではコンピュータビジョンほど広範に研究されていない。
本稿では,変換器をベースとしたBERTモデルのフィルマスク特性を利用したテキスト拡張手法を提案する。
本手法では,文中の単語を反復的にマスキングし,言語モデル予測に置き換える。
提案手法を様々なNLPタスクで検証した結果,多くのケースで有効であることが判明した。
その結果,既存の拡張手法との比較を行った。
実験の結果,提案手法は,特にトピック分類データセットにおいて,性能が著しく向上することがわかった。
関連論文リスト
- A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Investigating Masking-based Data Generation in Language Models [0.0]
BERTと類似したアーキテクチャを持つモデルの特徴は、マスキング言語モデリングの目的である。
データ拡張は、機械学習で広く使われているデータ駆動技術である。
最近の研究は、NLP下流タスクのための人工的な拡張データを生成するためにマスク付き言語モデルを利用している。
論文 参考訳(メタデータ) (2023-06-16T16:48:27Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Data Augmentation for Voice-Assistant NLU using BERT-based
Interchangeable Rephrase [39.09474362100266]
本論文では,バイトペア符号化に基づくデータ拡張手法とBERTのような自己認識モデルを導入して,話し言葉理解タスクのパフォーマンス向上を図る。
本手法は,音声アシスタントのドメインと意図の分類タスクや,発話の自然性や意味的類似性に着目したユーザスタディに強く貢献することを示す。
論文 参考訳(メタデータ) (2021-04-16T17:53:58Z) - Neural Mask Generator: Learning to Generate Adaptive Word Maskings for
Language Model Adaptation [63.195935452646815]
本稿では,自己教師付き事前学習のためのテキストのドメイン適応マスキングとタスク適応マスキングを自動生成する手法を提案する。
本稿では,マスキング政策を学習する新しい強化学習フレームワークを提案する。
我々はいくつかの質問応答とテキスト分類データセットに基づいてニューラルマスク生成器(NMG)を検証する。
論文 参考訳(メタデータ) (2020-10-06T13:27:01Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z) - Investigating the Effectiveness of Representations Based on Pretrained
Transformer-based Language Models in Active Learning for Labelling Text
Datasets [4.7718339202518685]
アクティブな学習を行う際にテキスト文書を表現するために使用される表現メカニズムは、そのプロセスがどれほど効果的かに大きな影響を及ぼす。
本稿では,事前学習型ニューラルネットワークモデルに基づく表現の有効性の包括的評価について述べる。
実験の結果,能動学習で得られた限られたラベル情報は,分類器の訓練に利用できるだけでなく,BERTに似た言語モデルによって生成された埋め込みも適応的に改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-21T02:37:44Z) - GridMask Data Augmentation [76.79300104795966]
本稿では,新しいデータ拡張手法であるGridMaskを提案する。
情報除去を利用して、様々なコンピュータビジョンタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T07:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。