論文の概要: Simple is Better! Lightweight Data Augmentation for Low Resource Slot
Filling and Intent Classification
- arxiv url: http://arxiv.org/abs/2009.03695v1
- Date: Tue, 8 Sep 2020 12:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 21:13:07.900618
- Title: Simple is Better! Lightweight Data Augmentation for Low Resource Slot
Filling and Intent Classification
- Title(参考訳): 単純な方が良い!
低リソーススロット充填とインテント分類のための軽量データ拡張
- Authors: Samuel Louvan, Bernardo Magnini
- Abstract要約: 単語スパンと文レベルの操作を含む一連の拡張手法である軽量化により、データの不足が軽減されることを示す。
制限されたデータ設定の実験では、軽量化によりスロットフィリングの性能が大幅に向上することが示された。
軽量化は、BERTベースのジョイントインテントとスロットフィリングモデルを改善するため、事前訓練されたLMベースのモデルと組み合わせることでも有益である。
- 参考スコア(独自算出の注目度): 3.2996723916635267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural-based models have achieved outstanding performance on slot filling and
intent classification, when fairly large in-domain training data are available.
However, as new domains are frequently added, creating sizeable data is
expensive. We show that lightweight augmentation, a set of augmentation methods
involving word span and sentence level operations, alleviates data scarcity
problems. Our experiments on limited data settings show that lightweight
augmentation yields significant performance improvement on slot filling on the
ATIS and SNIPS datasets, and achieves competitive performance with respect to
more complex, state-of-the-art, augmentation approaches. Furthermore,
lightweight augmentation is also beneficial when combined with pre-trained
LM-based models, as it improves BERT-based joint intent and slot filling
models.
- Abstract(参考訳): かなり大きなドメイン内トレーニングデータが利用可能である場合、ニューラルネットワークモデルはスロット充填とインテント分類において優れたパフォーマンスを達成している。
しかし、新しいドメインが頻繁に追加されるため、大きなデータを作成するのはコストがかかる。
単語スパンと文レベルの操作を含む一連の拡張手法である軽量拡張が,データの不足を緩和することを示す。
制限データ設定実験により,ATISおよびSNIPSデータセットのスロットフィリングにおいて,軽量化により大幅な性能向上が達成され,より複雑で最先端な拡張アプローチに対する競合性能が達成された。
さらに、BERTベースのジョイントインテントとスロットフィリングモデルを改善することにより、事前訓練されたLMベースのモデルと組み合わせることで、軽量化も有益である。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - SAFLEX: Self-Adaptive Augmentation via Feature Label Extrapolation [29.598247232905283]
本稿では,既存の拡張戦略と新たなデータセットと学習タスクのギャップを効果的に埋める,データ拡張のための新しい効率的な方法を提案する。
我々の発見は、既存の拡張パイプラインを新しいデータタイプとタスクに適用する可能性を強調し、より適応性がありレジリエントなトレーニングフレームワークへの移行を示唆している。
論文 参考訳(メタデータ) (2024-10-03T14:21:49Z) - Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering [0.5735035463793009]
変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムの拡張フレームワークを提案する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
論文 参考訳(メタデータ) (2024-05-30T07:06:02Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - RandMSAugment: A Mixed-Sample Augmentation for Limited-Data Scenarios [3.018656336329545]
我々はRandMSAugmentと呼ばれる新しい拡張手法を導入し、既存の手法の相補的な強みを統合する。
RandMSAugmentは、CIFAR-100、STL-10、Tiny-Imagenetの競合よりはるかに優れている。
論文 参考訳(メタデータ) (2023-11-25T18:07:20Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - On Automatic Data Augmentation for 3D Point Cloud Classification [19.338266486983176]
両レベル最適化を用いてデータ拡張戦略を自動学習することを提案する。
拡張器は条件付きジェネレータと同じような設計で、バリデーションセットにおけるベースモデルの損失を最小限に抑えて最適化される。
標準的なクラウド分類タスクに対する我々のアプローチと、トレーニングと検証/テストセットのミスアライメントによるより困難な設定について評価する。
論文 参考訳(メタデータ) (2021-12-11T17:14:16Z) - Data balancing for boosting performance of low-frequency classes in
Spoken Language Understanding [9.689893038619585]
本稿では,音声言語理解(SLU)アプリケーションにおけるデータ不均衡処理に関する最初の体系的研究について述べる。
既存のデータ分散手法をSLUに適用し、目的分類とスロットフィリングのためのマルチタスクSLUモデルを提案する。
実世界のデータセットを用いた結果から,本モデルでは,頭部意図に対する潜在的な性能低下を回避しつつ,低周波意図に対する性能を著しく向上させることができることが示唆された。
論文 参考訳(メタデータ) (2020-08-06T12:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。