論文の概要: Data balancing for boosting performance of low-frequency classes in
Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2008.02603v1
- Date: Thu, 6 Aug 2020 12:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:37:23.553438
- Title: Data balancing for boosting performance of low-frequency classes in
Spoken Language Understanding
- Title(参考訳): 音声理解における低頻度クラスの性能向上のためのデータバランス
- Authors: Judith Gaspers, Quynh Do, Fabian Triefenbach
- Abstract要約: 本稿では,音声言語理解(SLU)アプリケーションにおけるデータ不均衡処理に関する最初の体系的研究について述べる。
既存のデータ分散手法をSLUに適用し、目的分類とスロットフィリングのためのマルチタスクSLUモデルを提案する。
実世界のデータセットを用いた結果から,本モデルでは,頭部意図に対する潜在的な性能低下を回避しつつ,低周波意図に対する性能を著しく向上させることができることが示唆された。
- 参考スコア(独自算出の注目度): 9.689893038619585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the fact that data imbalance is becoming more and more common in
real-world Spoken Language Understanding (SLU) applications, it has not been
studied extensively in the literature. To the best of our knowledge, this paper
presents the first systematic study on handling data imbalance for SLU. In
particular, we discuss the application of existing data balancing techniques
for SLU and propose a multi-task SLU model for intent classification and slot
filling. Aiming to avoid over-fitting, in our model methods for data balancing
are leveraged indirectly via an auxiliary task which makes use of a
class-balanced batch generator and (possibly) synthetic data. Our results on a
real-world dataset indicate that i) our proposed model can boost performance on
low frequency intents significantly while avoiding a potential performance
decrease on the head intents, ii) synthetic data are beneficial for
bootstrapping new intents when realistic data are not available, but iii) once
a certain amount of realistic data becomes available, using synthetic data in
the auxiliary task only yields better performance than adding them to the
primary task training data, and iv) in a joint training scenario, balancing the
intent distribution individually improves not only intent classification but
also slot filling performance.
- Abstract(参考訳): 実世界の音声言語理解(SLU)アプリケーションでは、データの不均衡がますます一般的になっているにもかかわらず、文献では広く研究されていない。
本稿では,SLUにおけるデータ不均衡処理に関する最初の体系的研究について述べる。
特に,既存のデータ分散手法のSLUへの適用について論じ,目的分類とスロットフィリングのためのマルチタスクSLUモデルを提案する。
過剰フィッティングを避けるため,データバランスのためのモデル手法では,クラスバランスバッチ生成器と(多分)合成データを利用する補助タスクを介して間接的に活用する。
実世界のデータセットでの結果は、
一 提案モデルは、ヘッドインテントの潜在的な性能低下を回避しつつ、低周波インテントの性能を著しく向上させることができる。
二 リアルなデータが得られない場合は新しい意図をブートストラップするのに有益であるが
三 一定量の現実的なデータが利用可能になると、補助作業において合成データを使用することにより、一次作業訓練データに追加するよりも優れた性能が得られること。
四 共同訓練のシナリオにおいて、意図分布のバランスは、目的分類だけでなくスロット充填性能も個別に改善する。
関連論文リスト
- ChatGPT Based Data Augmentation for Improved Parameter-Efficient
Debiasing of LLMs [69.27030571729392]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data
Injection and Model Querying [12.272239607545089]
局所分布シフト合成(textscLDSS)は,分類モデルの訓練に使用される漏洩データを検出する新しい手法である。
textscLDSSは、Naive Bayes、Decision Tree、Random Forestといった様々な分類モデルと互換性がある。
5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文 参考訳(メタデータ) (2023-06-26T01:40:28Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - Fairness-Aware Data Valuation for Supervised Learning [4.874780144224057]
本研究では,Fairness-Aware Data vauatiOn (FADO)を提案する。
FADOを不公平化前処理技術の基礎として活用する方法を示す。
提案手法は,最大40ppの公正度を,ベースラインに比べて性能が1pp以下で向上することを示す。
論文 参考訳(メタデータ) (2023-03-29T18:51:13Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks [61.51515750218049]
本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
小型ソフト・プロンプトのみを訓練するPrompt-based Data Augmentation Model (PromDA)を提案する。
PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
論文 参考訳(メタデータ) (2022-02-25T05:09:27Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。