論文の概要: Data Augmentation for Intent Classification
- arxiv url: http://arxiv.org/abs/2206.05790v1
- Date: Sun, 12 Jun 2022 16:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 06:32:44.398840
- Title: Data Augmentation for Intent Classification
- Title(参考訳): 意図分類のためのデータ拡張
- Authors: Derek Chen, Claire Yin
- Abstract要約: そこで本研究では,小さなシードセットを与えられた擬似ラベル付きデータを体系的に生成する過程について検討した。
定性的および定量的な性能を劇的に改善する手法はあるが、他の手法は最小あるいは負の影響も与えている。
- 参考スコア(独自算出の注目度): 1.5635370717421018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training accurate intent classifiers requires labeled data, which can be
costly to obtain. Data augmentation methods may ameliorate this issue, but the
quality of the generated data varies significantly across techniques. We study
the process of systematically producing pseudo-labeled data given a small seed
set using a wide variety of data augmentation techniques, including mixing
methods together. We find that while certain methods dramatically improve
qualitative and quantitative performance, other methods have minimal or even
negative impact. We also analyze key considerations when implementing data
augmentation methods in production.
- Abstract(参考訳): 正確な意図分類器の訓練にはラベル付きデータが必要である。
データ拡張手法はこの問題を改善するかもしれないが、生成されたデータの品質は技術によって大きく異なる。
本研究では, 混合法を含む多種多様なデータ拡張手法を用いて, 種小の擬似ラベルデータを系統的に生成する方法について検討した。
定性的および定量的な性能を劇的に改善する手法はあるが、他の手法は最小あるいは負の影響も与えている。
また、本運用におけるデータ拡張手法の実装における重要な考察についても分析する。
関連論文リスト
- A Similarity-Based Oversampling Method for Multi-label Imbalanced Text Data [1.799933345199395]
本研究では,マルチラベルテキスト分類のための新しいオーバーサンプリング手法を紹介し,検討する。
提案手法は,インスタンス間の類似度を利用してラベル付けされていないデータから潜在的に新しいサンプルを同定する。
ラベルなしのデータセットを反復検索することで、未表現のクラスに類似したインスタンスを探索する。
パフォーマンス改善を示すインスタンスがラベル付きデータセットに追加される。
論文 参考訳(メタデータ) (2024-11-01T20:33:49Z) - Data Augmentation Techniques for Process Extraction from Scientific Publications [0.0]
我々はプロセス抽出タスクをシーケンスラベリングタスクとしてキャストし、文中のすべてのエンティティを識別し、プロセス固有の役割に従ってラベル付けする。
提案手法は,(1)原文からのプロセス固有の情報,(2)役割ラベルの類似性,(3)文類似性を利用して意味のある拡張文を作成する。
論文 参考訳(メタデータ) (2024-05-23T14:09:02Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Data Valuation with Gradient Similarity [1.997283751398032]
データ評価アルゴリズムは、与えられた予測タスクへの貢献または重要性に基づいて、データセット内の各サンプルの価値を定量化する。
DVGS(Data Valuation with Gradient similarity)と呼ばれる既存の手法に代わる単純な方法を提案する。
当社のアプローチでは,低品質なデータを迅速かつ正確に識別することが可能で,データクリーニング作業における専門家の知識や手作業による介入の必要性を低減できる。
論文 参考訳(メタデータ) (2024-05-13T22:10:00Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Data Augmentation by Selecting Mixed Classes Considering Distance
Between Classes [9.690454593095495]
ミックスアップのような複数のデータセットから混合データを生成する方法は、精度の向上に大きく貢献する。
本稿では,クラス間の距離をクラス確率に基づいて計算するデータ拡張手法を提案する。
提案手法により,画像認識データセットの認識性能が向上することを示す。
論文 参考訳(メタデータ) (2022-09-12T10:10:04Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - ResizeMix: Mixing Data with Preserved Object Information and True Labels [57.00554495298033]
本研究は,データ混合におけるサリエンシー情報の重要性について検討し,サリエンシー情報は増補性能向上のために必要ではないことを見出した。
本稿では,より効率的で実装が容易なresizemix法を提案する。
論文 参考訳(メタデータ) (2020-12-21T03:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。