論文の概要: An Empirical Investigation of Pre-Trained Transformer Language Models
for Open-Domain Dialogue Generation
- arxiv url: http://arxiv.org/abs/2003.04195v1
- Date: Mon, 9 Mar 2020 15:20:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 07:48:47.183220
- Title: An Empirical Investigation of Pre-Trained Transformer Language Models
for Open-Domain Dialogue Generation
- Title(参考訳): オープンドメイン対話生成のための事前学習変換言語モデルの実証的検討
- Authors: Piji Li
- Abstract要約: 本稿では,オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的に検討する。
事前訓練と微調整の訓練パラダイムは、学習を行うために使用される。
実験は、Weibo、Douban、Reddit、DailyDialog、Persona-Chatといった典型的なシングルターンとマルチターンの対話コーパスで行われる。
- 参考スコア(独自算出の注目度): 23.343006562849126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an empirical investigation of pre-trained Transformer-based
auto-regressive language models for the task of open-domain dialogue
generation. Training paradigm of pre-training and fine-tuning is employed to
conduct the parameter learning. Corpora of News and Wikipedia in Chinese and
English are collected for the pre-training stage respectively. Dialogue context
and response are concatenated into a single sequence utilized as the input of
the models during the fine-tuning stage. A weighted joint prediction paradigm
for both context and response is designed to evaluate the performance of models
with or without the loss term for context prediction. Various of decoding
strategies such as greedy search, beam search, top-k sampling, etc. are
employed to conduct the response text generation. Extensive experiments are
conducted on the typical single-turn and multi-turn dialogue corpora such as
Weibo, Douban, Reddit, DailyDialog, and Persona-Chat. Detailed numbers of
automatic evaluation metrics on relevance and diversity of the generated
results for the languages models as well as the baseline approaches are
reported.
- Abstract(参考訳): オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的検討を行った。
パラメータ学習には事前学習と微調整のトレーニングパラダイムが用いられる。
中国語と英語のニュースとウィキペディアのコーパスは、それぞれ事前学習段階に集められる。
対話コンテキストと応答は、微調整段階でモデルの入力として使用される単一のシーケンスに結合される。
コンテキストと応答の両方に対する重み付き共同予測パラダイムは、コンテキスト予測の損失項の有無にかかわらず、モデルの性能を評価するように設計されている。
応答テキスト生成には、グリーディ探索、ビーム探索、トップkサンプリングなど様々な復号戦略が用いられる。
weibo、douban、reddit、dailydialog、ペルソナチャットなど、典型的なシングルターンおよびマルチターン対話コーパスに関する広範な実験が行われた。
言語モデルおよびベースラインアプローチにおける生成結果の妥当性と多様性に関する自動評価指標の詳細な数について報告する。
関連論文リスト
- SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Promoting Open-domain Dialogue Generation through Learning Pattern
Information between Contexts and Responses [5.936682548344234]
本稿では,学習サンプルの文脈と応答の間の暗黙的なパターン情報を学ぶことにより,生成した応答の品質を向上させる。
また、文脈と応答間の暗黙的パターン情報をマイニングする応答認識機構を設計し、生成した応答をより多様でヒトの応答に近似するようにした。
論文 参考訳(メタデータ) (2023-09-06T08:11:39Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken
Conversations [22.894541507068933]
本稿では,DSTC-10の音声対話課題における知識ベースタスク指向対話モデリングのための一般化モデルの構築について述べる。
我々は,人工誤り注入やラウンドトリップ音声変換など,手書きデータに対する広範なデータ拡張戦略を採用している。
本手法は, 客観的評価では3位, 最終公式評価では2位である。
論文 参考訳(メタデータ) (2022-03-08T12:26:57Z) - Context Matters in Semantically Controlled Language Generation for
Task-oriented Dialogue Systems [6.1478669848771546]
本研究は,タスク指向対話における文脈言語生成を実現するために,事前学習モデルによって符号化された対話履歴情報と,現在のシステム発話の意味表現とを組み合わせる。
我々は、事前学習されたマルチコンテキスト・コンベRTモデルを、スクラッチから訓練されたモデルにおける文脈表現に利用し、事前学習されたGPT-2から適応したモデルにおいて、直前のユーザ発話を文脈生成に活用する。
論文 参考訳(メタデータ) (2021-11-28T11:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。