論文の概要: Learning towards Selective Data Augmentation for Dialogue Generation
- arxiv url: http://arxiv.org/abs/2303.09719v1
- Date: Fri, 17 Mar 2023 01:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 16:00:10.952347
- Title: Learning towards Selective Data Augmentation for Dialogue Generation
- Title(参考訳): 対話生成のための選択的データ拡張に向けた学習
- Authors: Xiuying Chen, Mingzhe Li, Jiayi Zhang, Xiaoqiang Xia, Chen Wei,
Jianwei Cui, Xin Gao, Xiangliang Zhang, Rui Yan
- Abstract要約: すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
- 参考スコア(独自算出の注目度): 52.540330534137794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As it is cumbersome and expensive to acquire a huge amount of data for
training neural dialog models, data augmentation is proposed to effectively
utilize existing training samples. However, current data augmentation
techniques on the dialog generation task mostly augment all cases in the
training dataset without considering the intrinsic attributes between different
cases. We argue that not all cases are beneficial for augmentation task, and
the cases suitable for augmentation should obey the following two attributes:
(1) low-quality (the dialog model cannot generate a high-quality response for
the case), (2) representative (the case should represent the property of the
whole dataset). Herein, we explore this idea by proposing a Selective Data
Augmentation framework (SDA) for the response generation task. SDA employs a
dual adversarial network to select the lowest quality and most representative
data points for augmentation in one stage. Extensive experiments conducted on
two publicly available datasets, i.e., DailyDialog and OpenSubtitles, show that
our framework can improve the response generation performance with respect to
various metrics.
- Abstract(参考訳): ニューラルダイアログモデルのトレーニングには膨大な量のデータを取得するのが面倒で費用がかかるため、既存のトレーニングサンプルを効果的に活用するためにデータ拡張を提案する。
しかしながら、ダイアログ生成タスクにおける現在のデータ拡張技術は、異なるケース間の固有の属性を考慮せずに、トレーニングデータセットのすべてのケースをほとんど強化する。
我々は、すべてのケースが拡張タスクに有益であるとは限らないし、拡張に適したケースは以下の2つの属性に従うべきであると主張する。(1)低品質(ダイアログモデルは、ケースに対して高品質な応答を生成することができない)、2)代表(ケースはデータセット全体の特性を表すべきである)。
本稿では、応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
SDAは、最低品質と最も代表的なデータポイントを1段階で選択するために、二重対向ネットワークを使用している。
公開されている2つのデータセット、すなわちdailydialogとopensubtitlesで行った広範な実験は、我々のフレームワークがさまざまなメトリクスに対するレスポンス生成パフォーマンスを向上させることができることを示している。
関連論文リスト
- AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - Counterfactual Data Augmentation via Perspective Transition for
Open-Domain Dialogues [34.78482218571574]
本稿では,異なるセマンティクスによる高品質な応答を自動的に拡張するデータ拡張手法を提案する。
実験結果から,データ拡張手法は対話履歴の異なるセマンティクスで高品質な応答を増強し,複数の下流タスクにおいて競合的ベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2022-10-30T13:26:49Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。