論文の概要: To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP
- arxiv url: http://arxiv.org/abs/2111.09618v1
- Date: Thu, 18 Nov 2021 10:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:19:48.071020
- Title: To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP
- Title(参考訳): 増やすか、増やさないか?
低リソースNLPのためのテキスト拡張手法の比較検討
- Authors: G\"ozde G\"ul \c{S}ahin
- Abstract要約: 本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data-hungry deep neural networks have established themselves as the standard
for many NLP tasks including the traditional sequence tagging ones. Despite
their state-of-the-art performance on high-resource languages, they still fall
behind of their statistical counter-parts in low-resource scenarios. One
methodology to counter attack this problem is text augmentation, i.e.,
generating new synthetic training data points from existing data. Although NLP
has recently witnessed a load of textual augmentation techniques, the field
still lacks a systematic performance analysis on a diverse set of languages and
sequence tagging tasks. To fill this gap, we investigate three categories of
text augmentation methodologies which perform changes on the syntax (e.g.,
cropping sub-sentences), token (e.g., random word insertion) and character
(e.g., character swapping) levels. We systematically compare them on
part-of-speech tagging, dependency parsing and semantic role labeling for a
diverse set of language families using various models including the
architectures that rely on pretrained multilingual contextualized language
models such as mBERT. Augmentation most significantly improves dependency
parsing, followed by part-of-speech tagging and semantic role labeling. We find
the experimented techniques to be effective on morphologically rich languages
in general rather than analytic languages such as Vietnamese. Our results
suggest that the augmentation techniques can further improve over strong
baselines based on mBERT. We identify the character-level methods as the most
consistent performers, while synonym replacement and syntactic augmenters
provide inconsistent improvements. Finally, we discuss that the results most
heavily depend on the task, language pair, and the model type.
- Abstract(参考訳): データ格納型ディープニューラルネットワークは、従来のシーケンスタグ付け機能を含む多くのnlpタスクの標準として確立されている。
ハイリソース言語における最先端のパフォーマンスにもかかわらず、低リソースのシナリオでは統計上のカウンターパートに置き換わっている。
この問題に対処するための方法の1つは、既存のデータから新しい合成トレーニングデータポイントを生成するテキスト拡張である。
NLPは最近、多くのテキスト拡張テクニックを目撃しているが、多種多様な言語やシーケンスタグタスクに関する体系的なパフォーマンス分析はいまだに欠けている。
このギャップを埋めるために,テキスト拡張手法の3つのカテゴリについて検討し,構文(例えば,サブセンスの切り抜き),トークン(例えば,ランダムな単語挿入),文字(例えば,文字の入れ替え)の変化について検討した。
mBERTのような事前学習された多言語言語モデルに依存するアーキテクチャを含む様々なモデルを用いて、音声タグ付け、依存性解析、意味的役割ラベル付けを体系的に比較する。
拡張は依存性のパースを最も大幅に改善し、続いてpart-of-speech taggingとsemantic role labelingが続く。
ベトナム語のような分析言語ではなく,形態学的にリッチな言語全般に有効な実験手法を見出した。
以上の結果から,拡張手法はmbertに基づく強固なベースラインよりもさらに改善できることが示唆された。
キャラクタレベルの手法を最も一貫性のあるパフォーマーとみなし,同義語置換と構文拡張が矛盾する改善を提供する。
最後に、結果がタスク、言語ペア、モデルタイプに最も大きく依存していることについて議論する。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Selective Text Augmentation with Word Roles for Low-Resource Text
Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T08:13:11Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文 参考訳(メタデータ) (2021-12-16T09:56:35Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。