論文の概要: PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation
- arxiv url: http://arxiv.org/abs/2109.09519v1
- Date: Mon, 20 Sep 2021 13:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:35:50.354604
- Title: PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation
- Title(参考訳): PLATO-XL:対話生成の大規模事前学習を探る
- Authors: Siqi Bao, Huang He, Fan Wang, Hua Wu, Haifeng Wang, Wenquan Wu, Zhihua
Wu, Zhen Guo, Hua Lu, Xinxian Huang, Xin Tian, Xinchao Xu, Yingzhan Lin,
Zhengyu Niu
- Abstract要約: 我々は、最大11億のパラメータを持つPLATO-XLのモデルを提示し、中国語と英語のソーシャルメディアの会話に基づいて訓練した。
このような設計により、PLATO-XLは、中国語と英語のchitchatの他のアプローチと比較して、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.2269408043974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To explore the limit of dialogue generation pre-training, we present the
models of PLATO-XL with up to 11 billion parameters, trained on both Chinese
and English social media conversations. To train such large models, we adopt
the architecture of unified transformer with high computation and parameter
efficiency. In addition, we carry out multi-party aware pre-training to better
distinguish the characteristic information in social media conversations. With
such designs, PLATO-XL successfully achieves superior performances as compared
to other approaches in both Chinese and English chitchat. We further explore
the capacity of PLATO-XL on other conversational tasks, such as knowledge
grounded dialogue and task-oriented conversation. The experimental results
indicate that PLATO-XL obtains state-of-the-art results across multiple
conversational tasks, verifying its potential as a foundation model of
conversational AI.
- Abstract(参考訳): 対話生成の事前学習の限界を探るために,中国語と英語のソーシャルメディア会話で訓練された最大11億パラメータのplato-xlモデルを提示する。
このような大規模モデルのトレーニングには,高い計算とパラメータ効率で統一変換器のアーキテクチャを採用する。
さらに,ソーシャルメディアの会話における特徴情報をよりよく識別するために,複数政党による事前学習を実施している。
このような設計により、PLATO-XLは、中国語と英語のchitchatの他のアプローチと比較して、優れたパフォーマンスを実現している。
さらに,知識基盤対話やタスク指向会話など,他の会話課題におけるPLATO-XLの能力についても検討する。
実験結果から,PLATO-XLは対話型AIの基礎モデルとしての可能性を検証し,複数の対話型タスクにまたがる最先端の成果が得られることが示された。
関連論文リスト
- Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling [13.628984890958314]
本稿では,対話型音声モデリングにおけるマルチモーダル理解の効率化を目的とした,データ中心のカスタマイズ手法を提案する。
提案手法は,オープンウェイトモデルを用いたトレーニングデータの10%のみを用いて,Spken-SQuADベンチマークの最先端性能を実現する。
また、あいまいなユーザ要求と動的評価入力を備えたマルチターン音声対話のための最初のデータセットであるASK-QAを導入する。
論文 参考訳(メタデータ) (2024-12-20T15:43:09Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - PANGUBOT: Efficient Generative Dialogue Pre-training from Pre-trained
Language Model [47.858326419602115]
本稿では,PANGUBOTについて紹介する。PANGUBOTは,PANGU-alpha(PLM)をベースとした,中国語の事前学習型対話生成モデルである。
PANGUBOTは最先端の中国語対話システムより優れていることを示す。
また,PANGUBOTは,さらなるトレーニングを行なわずに感情的な反応を生成できることを示した。
論文 参考訳(メタデータ) (2022-03-31T15:09:12Z) - EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with
Large-Scale Pre-Training [73.98154158068134]
EVA2.0は280億のパラメータを持つ大規模な事前訓練された中国の対話モデルである。
提案するEVA2.0は,280億のパラメータを持つ,大規模で事前訓練されたオープンドメインの中国語対話モデルである。
論文 参考訳(メタデータ) (2022-03-17T13:33:17Z) - EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative
Pre-Training [40.85554509137999]
本研究では,2.8Bパラメータを持つ中国最大の事前学習対話モデルを含む中国語対話システムであるEVAを提案する。
このモデルを構築するために、様々なソーシャルメディアからWDC-Dialogueという名前の中国語対話データセットを収集する。
自動評価と人的評価の実験は、EVAが他の中国の事前学習対話モデルより優れていることを示している。
論文 参考訳(メタデータ) (2021-08-03T14:55:24Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - EmpTransfo: A Multi-head Transformer Architecture for Creating
Empathetic Dialog Systems [4.41738804598711]
本稿では,共感対話システムを構築するためのマルチヘッドトランスフォーマーアーキテクチャであるEmpTransfoを提案する。
感情やメタデータの履歴を活用することで、生成した会話の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-05T23:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。