論文の概要: C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot
Filling
- arxiv url: http://arxiv.org/abs/2012.07004v1
- Date: Sun, 13 Dec 2020 08:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:51:15.238800
- Title: C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot
Filling
- Title(参考訳): c2c-genda: スロット充填データ拡張のためのクラスタ間生成
- Authors: Yutai Hou, Sanyuan Chen, Wanxiang Che, Cheng Chen, Ting Liu
- Abstract要約: 本論文では,C2C-GenDA(Cluster-to-Cluster Generation framework for Data Augmentation)を提案する。
既存の発話を意味を保ちながら代替表現に再構成することで、トレーニングセットを拡大する。
C2C-GenDAは同じ意味の複数の既存の発話を同時にエンコードし、同時に複数の見えない表現をデコードする。
- 参考スコア(独自算出の注目度): 28.556305242643912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slot filling, a fundamental module of spoken language understanding, often
suffers from insufficient quantity and diversity of training data. To remedy
this, we propose a novel Cluster-to-Cluster generation framework for Data
Augmentation (DA), named C2C-GenDA. It enlarges the training set by
reconstructing existing utterances into alternative expressions while keeping
semantic. Different from previous DA works that reconstruct utterances one by
one independently, C2C-GenDA jointly encodes multiple existing utterances of
the same semantics and simultaneously decodes multiple unseen expressions.
Jointly generating multiple new utterances allows to consider the relations
between generated instances and encourages diversity. Besides, encoding
multiple existing utterances endows C2C with a wider view of existing
expressions, helping to reduce generation that duplicates existing data.
Experiments on ATIS and Snips datasets show that instances augmented by
C2C-GenDA improve slot filling by 7.99 (11.9%) and 5.76 (13.6%) F-scores
respectively, when there are only hundreds of training utterances.
- Abstract(参考訳): 音声言語理解の基本モジュールであるスロットフィリングは、トレーニングデータの量と多様性に苦しむことが多い。
そこで本研究では,データ拡張のためのクラスタ間クラスタ生成フレームワークC2C-GenDAを提案する。
既存の発話を意味を保ちながら代替表現に再構成することで、トレーニングセットを拡大する。
C2C-GenDAは、同じ意味論の既存の複数の発話を共同で符号化し、同時に複数の未知の表現を復号する。
複数の新しい発話を共同生成することで、生成されたインスタンス間の関係を考慮し、多様性を促進することができる。
さらに、複数の既存の発話を符号化することで、C2Cは既存の表現をより広い視点で表現でき、既存のデータを複製する生成を減らすのに役立つ。
ATISデータセットとSnipsデータセットの実験では、C2C-GenDAによって強化されたインスタンスは、数百の訓練発話しか存在しない場合、それぞれ7.99 (11.9%)と5.76 (13.6%)のFスコアを改善する。
関連論文リスト
- DLCR: A Generative Data Expansion Framework via Diffusion for Clothes-Changing Person Re-ID [69.70281727931048]
本稿では,多様な服装の個人画像を生成するための新しいデータ拡張フレームワークを提案する。
5つのベンチマークCC-ReIDデータセットの追加データを生成します。
DLCR生成データを用いて,先行技術(SOTA)法であるCALをトレーニングすることにより,トップ1の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-11T18:28:33Z) - Exemplar-Free Class Incremental Learning via Incremental Representation [26.759108983223115]
古い擬似機能を構築することなく, efCIL のためのtextbfsimple Incremental Representation (IR) フレームワークを提案する。
IRはデータセット拡張を利用して、適切な特徴空間をカバーし、単一のL2スペースメンテナンス損失を使用することでモデルを忘れないようにしている。
論文 参考訳(メタデータ) (2024-03-24T16:29:50Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Deep clustering with fusion autoencoder [0.0]
ディープクラスタリング(DC)モデルは、オートエンコーダを利用して、結果としてクラスタリングプロセスを促進する固有の特徴を学ぶ。
本稿では、この問題に対処するための新しいDC法を提案し、特に、生成逆数ネットワークとVAEを融合オートエンコーダ(FAE)と呼ばれる新しいオートエンコーダに結合する。
論文 参考訳(メタデータ) (2022-01-11T07:38:03Z) - Continual Learning for Monolingual End-to-End Automatic Speech
Recognition [16.651146574124567]
新しいドメインに自動音声認識(ASR)モデルを適用すると、元のドメインの性能が低下する(s)。
モノリンガルなASRモデルでさえ、カタストロフィック・フォーッティング(CF)に苦しむことなく、新しいアクセント、方言、話題などに拡張することはできない。
論文 参考訳(メタデータ) (2021-12-17T10:47:17Z) - Dual Cluster Contrastive learning for Person Re-Identification [78.42770787790532]
私たちはDual Cluster Contrastive Learning(DCC)という統合クラスタコントラストフレームワークを定式化します。
DCCは、個々のメモリバンクとセントロイドクラスタメモリバンクの2種類のメモリバンクを維持している。
教師なしまたは監督されていない人物のReIDに容易に適用できる。
論文 参考訳(メタデータ) (2021-12-09T02:43:25Z) - GenCo: Generative Co-training on Data-Limited Image Generation [41.45518513729391]
我々は,複数の相補的識別器を導入することで,識別器過適合問題を緩和する生成的協調学習ネットワークを設計する。
複数のベンチマークによる実験によると、GenCoは限られたトレーニングデータで優れた世代を達成している。
論文 参考訳(メタデータ) (2021-10-04T08:45:53Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Dual Adversarial Auto-Encoders for Clustering [152.84443014554745]
教師なしクラスタリングのためのDual-AAE(Dual-AAE)を提案する。
Dual-AAEの目的関数に対する変分推論を行うことで,一対のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。
4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-23T13:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。