論文の概要: How to choose "Good" Samples for Text Data Augmentation
- arxiv url: http://arxiv.org/abs/2302.00894v1
- Date: Thu, 2 Feb 2023 06:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:15:54.283703
- Title: How to choose "Good" Samples for Text Data Augmentation
- Title(参考訳): テキストデータ拡張のための"Good"サンプルの選択方法
- Authors: Xiaotian Lin, Nankai Lin, Yingwen Fu, Ziyu Yang and Shengyi Jiang
- Abstract要約: データ拡張から高品質なサンプルを選択するための2つのセレクタを備えた新しい自己学習フレームワークを提案する。
具体的には、まずエントロピーに基づく戦略とモデル予測を用いて、拡張サンプルを選択する。
上述のステップで高い品質のサンプルが誤ってフィルタされる可能性があることを考慮し、単語重複と意味的類似性という2つの視点からそれらを思い出すことを提案する。
- 参考スコア(独自算出の注目度): 4.60495447017298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based text classification models need abundant labeled data to
obtain competitive performance. Unfortunately, annotating large-size corpus is
time-consuming and laborious. To tackle this, multiple researches try to use
data augmentation to expand the corpus size. However, data augmentation may
potentially produce some noisy augmented samples. There are currently no works
exploring sample selection for augmented samples in nature language processing
field. In this paper, we propose a novel self-training selection framework with
two selectors to select the high-quality samples from data augmentation.
Specifically, we firstly use an entropy-based strategy and the model prediction
to select augmented samples. Considering some samples with high quality at the
above step may be wrongly filtered, we propose to recall them from two
perspectives of word overlap and semantic similarity. Experimental results show
the effectiveness and simplicity of our framework.
- Abstract(参考訳): 深層学習に基づくテキスト分類モデルは、競合性能を得るために豊富なラベル付きデータを必要とする。
残念ながら、大型コーパスに注釈をつけるのは時間と労力を要する。
これに対処するために、複数の研究がコーパスのサイズを拡大するためにデータ拡張を試みている。
しかし、データ拡張はノイズの多い拡張サンプルを生成する可能性がある。
現在、自然言語処理分野におけるサンプル選択に関する研究は行われていない。
本稿では,データ拡張から高品質なサンプルを選択するための,2つのセレクタを持つ新しい自己学習選択フレームワークを提案する。
具体的には、まずエントロピーに基づく戦略とモデル予測を用いて、拡張サンプルを選択する。
上記のステップで品質の高いサンプルが誤ってフィルタされる可能性があることを考慮し,単語重なりと意味的類似性という2つの視点からそれを思い出す。
実験の結果,フレームワークの有効性と単純さが示された。
関連論文リスト
- Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - On Training Instance Selection for Few-Shot Neural Text Generation [9.37935464602938]
数ショットのニューラルテキスト生成におけるトレーニングインスタンスの選択について検討する。
K-meansクラスタリングによる単純な選択戦略を提案する。
生成モデルは3つのテキスト生成タスクにおいてランダムサンプリングよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-07-07T12:16:16Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。