論文の概要: Data Augmentation for Intent Classification
- arxiv url: http://arxiv.org/abs/2206.05790v1
- Date: Sun, 12 Jun 2022 16:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 06:32:44.398840
- Title: Data Augmentation for Intent Classification
- Title(参考訳): 意図分類のためのデータ拡張
- Authors: Derek Chen, Claire Yin
- Abstract要約: そこで本研究では,小さなシードセットを与えられた擬似ラベル付きデータを体系的に生成する過程について検討した。
定性的および定量的な性能を劇的に改善する手法はあるが、他の手法は最小あるいは負の影響も与えている。
- 参考スコア(独自算出の注目度): 1.5635370717421018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training accurate intent classifiers requires labeled data, which can be
costly to obtain. Data augmentation methods may ameliorate this issue, but the
quality of the generated data varies significantly across techniques. We study
the process of systematically producing pseudo-labeled data given a small seed
set using a wide variety of data augmentation techniques, including mixing
methods together. We find that while certain methods dramatically improve
qualitative and quantitative performance, other methods have minimal or even
negative impact. We also analyze key considerations when implementing data
augmentation methods in production.
- Abstract(参考訳): 正確な意図分類器の訓練にはラベル付きデータが必要である。
データ拡張手法はこの問題を改善するかもしれないが、生成されたデータの品質は技術によって大きく異なる。
本研究では, 混合法を含む多種多様なデータ拡張手法を用いて, 種小の擬似ラベルデータを系統的に生成する方法について検討した。
定性的および定量的な性能を劇的に改善する手法はあるが、他の手法は最小あるいは負の影響も与えている。
また、本運用におけるデータ拡張手法の実装における重要な考察についても分析する。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and
Data Attribution [67.28273187033693]
アモート化(amortization)と呼ばれる,所望の出力を直接予測するネットワークのトレーニングは安価で,驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - CAISA at SemEval-2023 Task 8: Counterfactual Data Augmentation for
Mitigating Class Imbalance in Causal Claim Identification [8.566457170664926]
医学的クレームの識別のための動詞置換による新しいデータ拡張を提案する。
さらに,本手法の影響について検討し,他の3つのデータ拡張手法との比較を行った。
論文 参考訳(メタデータ) (2023-06-01T04:55:43Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition [17.892385961143173]
本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。
我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
論文 参考訳(メタデータ) (2022-10-14T16:02:03Z) - Data Augmentation by Selecting Mixed Classes Considering Distance
Between Classes [9.690454593095495]
ミックスアップのような複数のデータセットから混合データを生成する方法は、精度の向上に大きく貢献する。
本稿では,クラス間の距離をクラス確率に基づいて計算するデータ拡張手法を提案する。
提案手法により,画像認識データセットの認識性能が向上することを示す。
論文 参考訳(メタデータ) (2022-09-12T10:10:04Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Data Augmentation for Opcode Sequence Based Malware Detection [2.335152769484957]
固定変換を用いた基本手法からデータ拡張の異なる手法について検討し、データに適応する手法に移行する。
ネットワーク内のOpcode埋め込み層とそれに対応するOpcode埋め込み行列を用いた新しいデータ拡張手法を提案する。
我々の知る限りでは、オプコードシーケンスに基づくマルウェア分類に適用される様々な拡張手法を体系的に研究する最初の論文である。
論文 参考訳(メタデータ) (2021-06-22T14:36:35Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。
提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。
金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文 参考訳(メタデータ) (2021-02-16T17:50:51Z) - Mask-based Data Augmentation for Semi-supervised Semantic Segmentation [3.946367634483361]
そこで我々は,CutMix と ClassMix の側面を組み込んだデータ拡張手法である ComplexMix を提案する。
提案手法は、意味論的に正しいようにしながら、拡張データの複雑さを制御できる。
実験結果から,セマンティック画像分割のための標準データセットにおける最新手法の改良が得られた。
論文 参考訳(メタデータ) (2021-01-25T15:09:34Z) - ResizeMix: Mixing Data with Preserved Object Information and True Labels [57.00554495298033]
本研究は,データ混合におけるサリエンシー情報の重要性について検討し,サリエンシー情報は増補性能向上のために必要ではないことを見出した。
本稿では,より効率的で実装が容易なresizemix法を提案する。
論文 参考訳(メタデータ) (2020-12-21T03:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。