論文の概要: Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data
- arxiv url: http://arxiv.org/abs/2009.09427v2
- Date: Tue, 10 Nov 2020 08:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:52:19.928217
- Title: Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data
- Title(参考訳): ダイアログ蒸留:未ペアデータを用いたオープンドメインダイアログ拡張
- Authors: Rongsheng Zhang, Yinhe Zheng, Jianzhi Shao, Xiaoxi Mao, Yadong Xi,
Minlie Huang
- Abstract要約: 未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
- 参考スコア(独自算出の注目度): 61.71319905364992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in open-domain dialogue systems rely on the success of neural
models that are trained on large-scale data. However, collecting large-scale
dialogue data is usually time-consuming and labor-intensive. To address this
data dilemma, we propose a novel data augmentation method for training
open-domain dialogue models by utilizing unpaired data. Specifically, a
data-level distillation process is first proposed to construct augmented
dialogues where both post and response are retrieved from the unpaired data. A
ranking module is employed to filter out low-quality dialogues. Further, a
model-level distillation process is employed to distill a teacher model trained
on high-quality paired data to augmented dialogue pairs, thereby preventing
dialogue models from being affected by the noise in the augmented data.
Automatic and manual evaluation indicates that our method can produce
high-quality dialogue pairs with diverse contents, and the proposed data-level
and model-level dialogue distillation can improve the performance of
competitive baselines.
- Abstract(参考訳): オープンドメイン対話システムの最近の進歩は、大規模データに基づいて訓練されたニューラルモデルの成功に依存している。
しかし、大規模な対話データの収集は通常、時間と労力がかかる。
このデータジレンマに対処するために、未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
具体的には,非ペアデータからポストと応答の両方を検索する付加対話を構築するために,まずデータレベルの蒸留プロセスを提案する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
さらに、高品質なペアデータに訓練された教師モデルを拡張対話ペアに蒸留するモデルレベル蒸留処理を施し、拡張データ内のノイズによる対話モデルへの影響を防止する。
自動的および手作業による評価は,多種多様な内容を持つ高品質な対話ペアを作成できることを示すとともに,提案するデータレベルおよびモデルレベルの対話蒸留は,競合ベースラインの性能を向上させることができる。
関連論文リスト
- Counterfactual Data Augmentation via Perspective Transition for
Open-Domain Dialogues [34.78482218571574]
本稿では,異なるセマンティクスによる高品質な応答を自動的に拡張するデータ拡張手法を提案する。
実験結果から,データ拡張手法は対話履歴の異なるセマンティクスで高品質な応答を増強し,複数の下流タスクにおいて競合的ベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2022-10-30T13:26:49Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Quick Starting Dialog Systems with Paraphrase Generation [0.0]
本稿では,既存の事例からより多くのデータを人工的に生成することで,対話エージェント作成のコストと労力を削減する手法を提案する。
提案手法は,人間の努力がほとんどないダイアログシステムを起動し,実際のエンドユーザーとの対話を可能にするのに十分なレベルの性能を実現する。
論文 参考訳(メタデータ) (2022-04-06T02:35:59Z) - DG2: Data Augmentation Through Document Grounded Dialogue Generation [41.81030088619399]
生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。
元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-15T18:50:14Z) - Data-Efficient Methods for Dialogue Systems [4.061135251278187]
会話型ユーザインタフェース(CUI)は、SiriやAlexaといったコンシューマにフォーカスした製品において、日常的に広く普及している。
ディープラーニングは、対話システムにおける最近のブレークスルーの根底にあるが、専門家によって注釈付けされることが多い、非常に大量のトレーニングデータを必要とする。
本稿では,最小限のデータから頑健な対話システムを訓練するための一連の手法を紹介する。
論文 参考訳(メタデータ) (2020-12-05T02:51:09Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。