論文の概要: Data Augmentation for Intent Classification
- arxiv url: http://arxiv.org/abs/2206.05790v1
- Date: Sun, 12 Jun 2022 16:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 06:32:44.398840
- Title: Data Augmentation for Intent Classification
- Title(参考訳): 意図分類のためのデータ拡張
- Authors: Derek Chen, Claire Yin
- Abstract要約: そこで本研究では,小さなシードセットを与えられた擬似ラベル付きデータを体系的に生成する過程について検討した。
定性的および定量的な性能を劇的に改善する手法はあるが、他の手法は最小あるいは負の影響も与えている。
- 参考スコア(独自算出の注目度): 1.5635370717421018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training accurate intent classifiers requires labeled data, which can be
costly to obtain. Data augmentation methods may ameliorate this issue, but the
quality of the generated data varies significantly across techniques. We study
the process of systematically producing pseudo-labeled data given a small seed
set using a wide variety of data augmentation techniques, including mixing
methods together. We find that while certain methods dramatically improve
qualitative and quantitative performance, other methods have minimal or even
negative impact. We also analyze key considerations when implementing data
augmentation methods in production.
- Abstract(参考訳): 正確な意図分類器の訓練にはラベル付きデータが必要である。
データ拡張手法はこの問題を改善するかもしれないが、生成されたデータの品質は技術によって大きく異なる。
本研究では, 混合法を含む多種多様なデータ拡張手法を用いて, 種小の擬似ラベルデータを系統的に生成する方法について検討した。
定性的および定量的な性能を劇的に改善する手法はあるが、他の手法は最小あるいは負の影響も与えている。
また、本運用におけるデータ拡張手法の実装における重要な考察についても分析する。
関連論文リスト
- Data Augmentation Techniques for Process Extraction from Scientific Publications [0.0]
我々はプロセス抽出タスクをシーケンスラベリングタスクとしてキャストし、文中のすべてのエンティティを識別し、プロセス固有の役割に従ってラベル付けする。
提案手法は,(1)原文からのプロセス固有の情報,(2)役割ラベルの類似性,(3)文類似性を利用して意味のある拡張文を作成する。
論文 参考訳(メタデータ) (2024-05-23T14:09:02Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Data Valuation with Gradient Similarity [1.997283751398032]
データ評価アルゴリズムは、与えられた予測タスクへの貢献または重要性に基づいて、データセット内の各サンプルの価値を定量化する。
DVGS(Data Valuation with Gradient similarity)と呼ばれる既存の手法に代わる単純な方法を提案する。
当社のアプローチでは,低品質なデータを迅速かつ正確に識別することが可能で,データクリーニング作業における専門家の知識や手作業による介入の必要性を低減できる。
論文 参考訳(メタデータ) (2024-05-13T22:10:00Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition [17.892385961143173]
本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。
我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
論文 参考訳(メタデータ) (2022-10-14T16:02:03Z) - Data Augmentation by Selecting Mixed Classes Considering Distance
Between Classes [9.690454593095495]
ミックスアップのような複数のデータセットから混合データを生成する方法は、精度の向上に大きく貢献する。
本稿では,クラス間の距離をクラス確率に基づいて計算するデータ拡張手法を提案する。
提案手法により,画像認識データセットの認識性能が向上することを示す。
論文 参考訳(メタデータ) (2022-09-12T10:10:04Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。
提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。
金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文 参考訳(メタデータ) (2021-02-16T17:50:51Z) - ResizeMix: Mixing Data with Preserved Object Information and True Labels [57.00554495298033]
本研究は,データ混合におけるサリエンシー情報の重要性について検討し,サリエンシー情報は増補性能向上のために必要ではないことを見出した。
本稿では,より効率的で実装が容易なresizemix法を提案する。
論文 参考訳(メタデータ) (2020-12-21T03:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。