論文の概要: Variational Latent-State GPT for Semi-supervised Task-Oriented Dialog
Systems
- arxiv url: http://arxiv.org/abs/2109.04314v1
- Date: Thu, 9 Sep 2021 14:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:18:09.059445
- Title: Variational Latent-State GPT for Semi-supervised Task-Oriented Dialog
Systems
- Title(参考訳): 半教師付きタスク指向対話システムにおける変分潜時GPT
- Authors: Hong Liu, Yucheng Cai, Zhenru Lin, Zhijian Ou, Yi Huang, Junlan Feng
- Abstract要約: 変分潜在状態GPTモデル(VLS-GPT)は2つのアプローチの強みを組み合わせた最初のモデルである。
我々は,GPTを変分学習に使用する際のメモリ爆発問題を克服する,サンプリング-then-forward-computationの戦略を開発した。
VLS-GPTは、教師のみのベースラインと半教師付きベースラインの両方で著しく優れていた。
- 参考スコア(独自算出の注目度): 24.667353107453824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, two approaches, fine-tuning large pre-trained language models and
variational training, have attracted significant interests, separately, for
semi-supervised end-to-end task-oriented dialog (TOD) systems. In this paper,
we propose Variational Latent-State GPT model (VLS-GPT), which is the first to
combine the strengths of the two approaches. Among many options of models, we
propose the generative model and the inference model for variational learning
of the end-to-end TOD system, both as auto-regressive language models based on
GPT-2, which can be further trained over a mix of labeled and unlabeled dialog
data in a semi-supervised manner. We develop the strategy of
sampling-then-forward-computation, which successfully overcomes the memory
explosion issue of using GPT in variational learning and speeds up training.
Semi-supervised TOD experiments are conducted on two benchmark multi-domain
datasets of different languages - MultiWOZ2.1 and CrossWOZ. VLS-GPT is shown to
significantly outperform both supervised-only and semi-supervised baselines.
- Abstract(参考訳): 近年,大規模訓練済み言語モデルと変分学習という2つのアプローチが,半教師付きタスク指向対話(TOD)システムにおいて,それぞれ大きな関心を集めている。
本稿では,2つのアプローチの強みを最初に組み合わせた変分潜在状態GPTモデル(VLS-GPT)を提案する。
本稿では,ラベル付きとラベルなしのダイアログデータを半教師付きで混合して学習できるgpt-2に基づく自己回帰型言語モデルとして,エンドツーエンドtodシステムの変動学習のための生成モデルと推論モデルを提案する。
我々は, GPTを変分学習に用いて学習を高速化するというメモリ爆発問題を克服し, サンプリング・then-forward-computationの戦略を開発した。
半教師付きTOD実験は、MultiWOZ2.1とCrossWOZの2つのベンチマークマルチドメインデータセットで実施される。
VLS-GPTは、教師のみのベースラインと半教師付きベースラインの両方で著しく優れていた。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling [13.757256085713571]
本稿では,新たな2段階予測パイプラインであるTAP-FMを提案する。
具体的には,マルチスケールコントラストテキストオーディオ事前学習プロトコル(MC-TAP)を提案する。
本フレームワークは,グローバル・ローカル・テキスト・オーディオ・セマンティクスと音響表現の両方を深く掘り下げる機能を示す。
論文 参考訳(メタデータ) (2024-04-14T08:56:19Z) - Heuristic-enhanced Candidates Selection strategy for GPTs tackle Few-Shot Aspect-Based Sentiment Analysis [1.5020330976600738]
本論文は、ヒューリスティック・エンハンスド・候補選択戦略を設計し、それに基づくオール・イン・ワン(AiO)モデルを提案する。
このモデルは2段階で動作し、PLMの精度と一般化の能力を同時に調節する。
実験の結果,提案手法は複数のサブタスクに適応し,GPTを直接利用する手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-09T07:02:14Z) - Robust Training of Federated Models with Extremely Label Deficiency [84.00832527512148]
フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。
我々は,ラベル付きおよびラベルなしデータの異なる視点から洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。
4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回っていることを示す重要な証拠となる。
論文 参考訳(メタデータ) (2024-02-22T10:19:34Z) - Advancing Semi-Supervised Task Oriented Dialog Systems by JSA Learning
of Discrete Latent Variable Models [22.249113574918034]
JSA-TODは、離散潜在変数条件モデルの半教師付き学習を開発するための最初の成果である。
実験の結果、JSA-TODは変分学習よりもかなり優れていた。
論文 参考訳(メタデータ) (2022-07-25T14:36:10Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Multi-Task Learning for Situated Multi-Domain End-to-End Dialogue
Systems [21.55075825370981]
我々はマルチタスク学習技術を利用して、より困難なデータセットに基づいてGPT-2ベースのモデルをトレーニングする。
本手法は,タスクやドメイン固有のモデルと比較して,すべてのサブタスクにおいて,ドメイン間のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-10-11T12:36:30Z) - Combining Deep Generative Models and Multi-lingual Pretraining for
Semi-supervised Document Classification [49.47925519332164]
半教師付き深層生成モデルと多言語事前学習を組み合わせることで,文書分類タスクのためのパイプラインを形成する。
当社のフレームワークは競争力が高く、複数の言語で低リソース設定の最先端のものよりも優れています。
論文 参考訳(メタデータ) (2021-01-26T11:26:14Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。