論文の概要: Open-Domain Dialogue Generation Based on Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2010.12780v1
- Date: Sat, 24 Oct 2020 04:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 11:49:45.500604
- Title: Open-Domain Dialogue Generation Based on Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルに基づくオープンドメイン対話生成
- Authors: Yan Zeng and Jian-Yun Nie
- Abstract要約: 事前訓練された言語モデルは、オープンドメイン対話の応答生成に成功している。
Transformer-ED と Transformer-ED はソース文とターゲット文を別々に用い,(2) Transformer-Dec はソース文とターゲット文の両方に用い,(3) Transformer-MLM はソース側の双方向の注意とターゲット側の左右の注意をマスクした言語モデルで用いた。
我々はこれらのフレームワークを3つのデータセットで比較し、最適なフレームワークがソース側で双方向の注意を使っており、エンコーダとデコーダを分離していないことを明らかにした。
- 参考スコア(独自算出の注目度): 23.828348485513043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have been successfully used in response
generation for open-domain dialogue. Four main frameworks have been proposed:
(1) Transformer-ED using Transformer encoder and decoder separately for source
and target sentences; (2) Transformer-Dec using Transformer decoder for both
source and target sentences; (3) Transformer-MLM using Transformer decoder that
applies bi-directional attention on the source side and left-to-right attention
on the target side with masked language model objective; and (4) Transformer-AR
that uses auto-regressive objective instead. In this study, we compare these
frameworks on 3 datasets, and our comparison reveals that the best framework
uses bidirectional attention on the source side and does not separate encoder
and decoder. We also examine model discrepancy, and our experiments confirm
that the performance of a model is directly impacted by the underlying
discrepancies. We then propose two correction methods to reduce the
discrepancies, and both improve the model performance. These results show that
discrepancies is an important factor to consider when we use a pre-trained
model, and a reduction in discrepancies can lead to improved performance.
- Abstract(参考訳): 事前訓練された言語モデルは、オープンドメイン対話の応答生成に成功している。
1) 原文と対象文を別々にトランスフォーマエンコーダとデコーダを使用するトランスフォーマ-dec、(2) 原文と対象文の両方にトランスフォーマデコーダを使用するトランスフォーマ-mlm、(3) ソース側に双方向の注意を向けるトランスフォーマ-mlm、およびマスキング言語モデルでターゲット側に左右の注意を向けるトランスフォーマ-ar、(4) 自動回帰目的を用いるトランスフォーマ-arの4つのフレームワークが提案されている。
本研究では,これらのフレームワークを3つのデータセットで比較し,最良のフレームワークがソース側に双方向の注意を向け,エンコーダとデコーダを分離しないことを示す。
また,モデルの相違性についても検討し,モデルの性能が基礎となる相違性に直接影響していることを確認する。
次に,2つの補正手法を提案し,その差を低減し,モデル性能を向上させる。
これらの結果から,事前学習モデルを用いた場合の相違は重要な要因であり,不一致の低減は性能の向上につながる可能性が示唆された。
関連論文リスト
- Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity [11.302828987873497]
本稿では,変換器モデルを線形時間置換器に変換し,目標タスクに微調整するクロスアーキテクチャ層蒸留(CALD)手法を提案する。
そこで本研究では,CALDが元のモデルの結果を効果的に回収できることを示す。
論文 参考訳(メタデータ) (2024-10-09T13:06:43Z) - Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。
使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。
モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-08-29T03:50:24Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Stateful Memory-Augmented Transformers for Efficient Dialogue Modeling [69.31802246621963]
本稿では、既存のトレーニング済みエンコーダデコーダモデルと互換性のある新しいメモリ拡張トランスを提案する。
事前訓練された変換器と共に別々のメモリモジュールを組み込むことで、モデルはメモリ状態と現在の入力コンテキストの間で情報を効果的に交換することができる。
論文 参考訳(メタデータ) (2022-09-15T22:37:22Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Diformer: Directional Transformer for Neural Machine Translation [13.867255817435705]
自己回帰(AR)モデルと非自己回帰(NAR)モデルは、パフォーマンスとレイテンシにおいてそれぞれ優位である。
本稿では,ARとNARを3世代に融合した方向変換器(Diformer)を提案する。
4つのWMTベンチマークの実験では、ダイフォーマーは現在の統一モデリング作業より優れており、ARとNARデコーディングの両方で1.5 BLEUポイント以上である。
論文 参考訳(メタデータ) (2021-12-22T02:35:29Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。