論文の概要: Towards Efficient Dialogue Pre-training with Transferable and
Interpretable Latent Structure
- arxiv url: http://arxiv.org/abs/2210.12461v1
- Date: Sat, 22 Oct 2022 14:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:18:56.083237
- Title: Towards Efficient Dialogue Pre-training with Transferable and
Interpretable Latent Structure
- Title(参考訳): 伝達可能・解釈可能な潜在構造を用いた対話事前学習の効率化
- Authors: Xueliang Zhao, Lemao Liu, Tingchen Fu, Shuming Shi, Dongyan Zhao and
Rui Yan
- Abstract要約: 本稿では、汎用ドメインから下流タスクへ、軽量で透過的な方法で容易に転送可能な潜在構造を持つ対話生成モデルを提案する。
伝達可能な潜在構造のおかげで,我々のモデルは,自動評価と人的評価の両面において,4つの強いベースラインよりも優れた対話応答が得られる。
- 参考スコア(独自算出の注目度): 77.30953347462452
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the availability of massive general-domain dialogue data, pre-trained
dialogue generation appears to be super appealing to transfer knowledge from
the general domain to downstream applications. In most existing work, such
transferable ability is mainly obtained by fitting a large model with hundreds
of millions of parameters on massive data in an exhaustive way, leading to
inefficient running and poor interpretability. This paper proposes a novel
dialogue generation model with a latent structure that is easily transferable
from the general domain to downstream tasks in a lightweight and transparent
way. Experiments on two benchmarks validate the effectiveness of the proposed
model. Thanks to the transferable latent structure, our model is able to yield
better dialogue responses than four strong baselines in terms of both automatic
and human evaluations, and our model with about 22% parameters particularly
delivers a 5x speedup in running time compared with the strongest baseline.
Moreover, the proposed model is explainable by interpreting the discrete latent
variables.
- Abstract(参考訳): 大規模な汎用ドメイン対話データの提供により、事前学習された対話生成は、一般ドメインから下流アプリケーションへの知識伝達に非常に魅力的なものと思われる。
既存のほとんどの作業において、このような転送能力は、大規模なデータに数十億のパラメータを満たした大きなモデルに徹底的に適合させることによって、主に得られる。
本稿では,汎用ドメインから下流タスクへ,軽量かつ透明な方法で容易に移行可能な潜在構造を持つ対話生成モデルを提案する。
2つのベンチマーク実験により,提案モデルの有効性が検証された。
トランスファー可能な潜在構造のおかげで、4つの強力なベースラインよりも、自動評価と人間評価の両方において、より優れた対話応答を得られるようになり、約22%のパラメータを持つモデルでは、最も強いベースラインと比較して、特に実行時間の5倍のスピードアップが得られます。
さらに, 離散潜在変数を解釈することにより, 提案モデルを説明することができる。
関連論文リスト
- When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Few-Shot Dialogue Summarization via Skeleton-Assisted Prompt Transfer in
Prompt Tuning [47.336815771549524]
Skeleton-Assisted Prompt Transferは、対話状態追跡から対話要約へのプロンプト転送を改善する。
本稿では,アノテーションやドメイン知識を必要としない摂動型プローブを用いた新しい手法を提案する。
In-deepth analysis is demonstrated the effective of our method in help a cross-task knowledge transfer in few-shot dialogue summarization。
論文 参考訳(メタデータ) (2023-05-20T03:32:48Z) - Counterfactual Data Augmentation via Perspective Transition for
Open-Domain Dialogues [34.78482218571574]
本稿では,異なるセマンティクスによる高品質な応答を自動的に拡張するデータ拡張手法を提案する。
実験結果から,データ拡張手法は対話履歴の異なるセマンティクスで高品質な応答を増強し,複数の下流タスクにおいて競合的ベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2022-10-30T13:26:49Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - Multi-Referenced Training for Dialogue Response Generation [36.24321477524634]
実世界の確率分布と単一参照データの確率分布とのギャップは,モデルが1対多の関係を効率的に学習することを妨げることを示す。
我々は、実世界の分布をよりよく近似するマルチ参照データを構築するために、強力な事前学習モデルから多様な擬似参照を生成する。
論文 参考訳(メタデータ) (2020-09-15T14:17:53Z) - Modeling Long Context for Task-Oriented Dialogue State Generation [51.044300192906995]
本稿では,シンプルで効果的な発話タグ付け手法と双方向言語モデルを用いたマルチタスク学習モデルを提案する。
提案手法は,入力対話コンテキストシーケンスが長い場合に,ベースラインの性能が著しく低下する,という問題を解決する。
本実験では,MultiWOZ 2.0データセットにおいて,ベースラインに対して7.03%の相対的改善を実現し,新しい最先端のジョイントゴール精度を52.04%に設定した。
論文 参考訳(メタデータ) (2020-04-29T11:02:25Z) - Non-Autoregressive Dialog State Tracking [122.2328875457225]
非自己回帰的対話状態追跡(NADST)の新しい枠組みを提案する。
NADSTはドメインとスロット間の潜在的な依存関係を分解し、分離されたスロットではなく完全なセットとして対話状態の予測を改善するためにモデルを最適化する。
以上の結果から,MultiWOZ 2.1コーパス上の全領域にわたる最先端の接合精度が得られた。
論文 参考訳(メタデータ) (2020-02-19T06:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。