論文の概要: Exploring Data Augmentation Methods on Social Media Corpora
- arxiv url: http://arxiv.org/abs/2303.02198v1
- Date: Fri, 3 Mar 2023 20:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 21:11:38.180995
- Title: Exploring Data Augmentation Methods on Social Media Corpora
- Title(参考訳): ソーシャルメディアコーパスにおけるデータ拡張手法の探索
- Authors: Isabel Garcia Pietri, Kineret Stanley
- Abstract要約: タスクやモデルアーキテクチャでうまく機能する拡張テクニックは広く受け入れられていない。
2つのソーシャルメディアデータセットを用いたテキスト分類の文脈におけるデータ拡張手法について検討する。
パターン探索トレーニング(PET)という,数発の学習アプローチも検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation has proven widely effective in computer vision. In Natural
Language Processing (NLP) data augmentation remains an area of active research.
There is no widely accepted augmentation technique that works well across tasks
and model architectures. In this paper we explore data augmentation techniques
in the context of text classification using two social media datasets. We
explore popular varieties of data augmentation, starting with oversampling,
Easy Data Augmentation (Wei and Zou, 2019) and Back-Translation (Sennrich et
al., 2015). We also consider Greyscaling, a relatively unexplored data
augmentation technique that seeks to mitigate the intensity of adjectives in
examples. Finally, we consider a few-shot learning approach: Pattern-Exploiting
Training (PET) (Schick et al., 2020). For the experiments we use a BERT
transformer architecture. Results show that augmentation techniques provide
only minimal and inconsistent improvements. Synonym replacement provided
evidence of some performance improvement and adjective scales with Grayscaling
is an area where further exploration would be valuable. Few-shot learning
experiments show consistent improvement over supervised training, and seem very
promising when classes are easily separable but further exploration would be
valuable.
- Abstract(参考訳): データ拡張はコンピュータビジョンにおいて広く有効であることが証明されている。
自然言語処理(NLP)では、データ拡張は現在も活発な研究領域である。
タスクやモデルアーキテクチャでうまく機能する拡張テクニックは広く受け入れられていません。
本稿では,2つのソーシャルメディアデータセットを用いたテキスト分類におけるデータ拡張手法について検討する。
オーバーサンプリング、簡易データ拡張(Wei and Zou, 2019)、バックトランスレーション(Sennrich et al., 2015)など、一般的なデータ拡張について検討する。
またgreyscalingも検討している。これは比較的未検討のデータ拡張技術で、例でいう形容詞の強度を緩和することを目指している。
最後に、パターン展開トレーニング(pet)(schick et al., 2020)という、数発の学習アプローチを検討する。
実験にはbert transformerアーキテクチャを使用します。
その結果、拡張技術は最小限で一貫性のない改善しか得られないことがわかった。
同義語置換は、いくつかのパフォーマンス改善と形容詞スケールとグレースケーリングの証拠を提供し、さらなる調査が価値のある分野である。
教師付きトレーニングよりも一貫性のある改善が見られた数少ない学習実験では,クラスが容易に分離可能だが,さらなる調査が有望であるように思われる。
関連論文リスト
- On Evaluation Protocols for Data Augmentation in a Limited Data Scenario [11.09784120582206]
古典的なデータ拡張(文を修飾する)は、単により優れた微調整を行う方法であることを示す。
さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットDAでは,性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-22T16:42:37Z) - Boosting Semi-Supervised 2D Human Pose Estimation by Revisiting Data
Augmentation and Consistency Training [25.02026393037821]
SSHPEは、高度なデータ拡張と簡潔な一貫性のトレーニング方法という、2つのコアから強化できることがわかった。
本稿では,多彩なハード拡張を伴うラベルなし画像の繰り返し拡大と,連続的にマルチパス予測を生成することを提案する。
提案手法は,SOTA手法と比較して,公開データセットに大幅な改善をもたらす。
論文 参考訳(メタデータ) (2024-02-18T12:27:59Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T08:46:11Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Adversarial Auto-Augment with Label Preservation: A Representation
Learning Principle Guided Approach [95.74102207187545]
本研究では,事前自由な自律的データ拡張の目的が表現学習の原則から導出可能であることを示す。
そこで我々は,既存の手法にシームレスに最適化し,シームレスに統合できる目的に対して,実用的なサロゲートを提案する。
論文 参考訳(メタデータ) (2022-11-02T02:02:51Z) - DNA: Dynamic Network Augmentation [0.0]
入力条件拡張ポリシーを学習する動的ネットワーク拡張(DNA)を導入する。
我々のモデルは動的拡張ポリシーを可能にし、入力特徴に条件付き幾何変換を持つデータに対してうまく機能する。
論文 参考訳(メタデータ) (2021-12-17T01:43:56Z) - CADDA: Class-wise Automatic Differentiable Data Augmentation for EEG
Signals [92.60744099084157]
本研究では、勾配に基づく学習に適した微分可能データ拡張を提案する。
本研究は,臨床関連睡眠ステージ分類課題におけるアプローチの意義を示す。
論文 参考訳(メタデータ) (2021-06-25T15:28:48Z) - Untapped Potential of Data Augmentation: A Domain Generalization
Viewpoint [14.360826930970765]
本研究では,拡張に基づく手法の領域一般化の観点から考察する。
最先端の強化手法による探索は、学習された表現が訓練中に使用する歪みに対してさえ頑健でないことを示す。
論文 参考訳(メタデータ) (2020-07-09T09:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。