論文の概要: Re$^3$Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for
Long-Turn Open-Domain Dialogue Pre-training
- arxiv url: http://arxiv.org/abs/2305.02606v1
- Date: Thu, 4 May 2023 07:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:38:01.145422
- Title: Re$^3$Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for
Long-Turn Open-Domain Dialogue Pre-training
- Title(参考訳): re$^3$dial:long-turn open-domain dialogue pre-trainingのための対話コーパスの検索、再構成、再スケール
- Authors: Jiaxin Wen, Hao Zhou, Minlie Huang
- Abstract要約: 本稿では,10億ドル規模の長期対話コーパスを自動構築するRetrieve, Reorganize, Rescaleフレームワーク(Re$3$Dial)を提案する。
Re$3$Dialは対話モデルの長期的コンテキスト利用能力を大幅に向上させることを示す。
UDSRモデル、ツールキット、およびデータをパブリックに利用するためにリリースします。
- 参考スコア(独自算出の注目度): 67.4011931058116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale open-domain dialogue data crawled from public social media has
greatly improved the performance of dialogue models. However, long-turn
dialogues are still highly scarce. Specifically, most dialogue sessions in
existing corpora have less than three turns. To alleviate this issue, we
propose the Retrieve, Reorganize and Rescale framework (Re$^3$Dial), which can
automatically construct a billion-scale long-turn dialogue corpus from existing
short-turn dialogue data. Re$^3$Dial first trains an Unsupervised Dense Session
Retriever (UDSR) to capture semantic and discourse relationships within
multi-turn dialogues for retrieving relevant and coherent sessions. It then
reorganizes the short-turn dialogues into long-turn sessions via recursively
retrieving and selecting the consecutive sessions with our proposed diversity
sampling strategy. Extensive evaluations on multiple multi-turn dialogue
benchmarks demonstrate that Re$^3$Dial consistently and significantly improves
the dialogue model's ability to utilize long-term context for modeling
multi-turn dialogues across different pre-training settings. Finally, we build
a toolkit for efficiently rescaling dialogue corpus with Re$^3$Dial, which
enables us to construct a corpus containing 1B Chinese dialogue sessions with
11.3 turns on average (5X longer than the original EVA corpus). We will release
our UDSR model, toolkit, and data for public use.
- Abstract(参考訳): ソーシャルメディアからクロールされた大規模オープンドメイン対話データは,対話モデルの性能を大幅に向上させた。
しかし、長い会話は非常に少ない。
具体的には、既存のコーパスのほとんどの対話セッションは3ターン以下である。
この問題を軽減するために,既存の短絡対話データから数十億ドル規模の長め対話コーパスを自動構築するRetrieve, Reorganize and Rescale framework(Re$^3$Dial)を提案する。
Re$3$Dialは、まずUnsupervised Dense Session Retriever (UDSR) を訓練し、関連するセッションと一貫性のあるセッションを検索するために、マルチターンダイアログ内のセマンティックおよび談話関係をキャプチャする。
そして,本提案手法により,短期対話を長期セッションに再編成し,再帰的検索と連続セッションの選択を行う。
複数のマルチターンダイアログベンチマークの大規模な評価により、Re$3$Dialは、異なる事前学習設定間でのマルチターンダイアログのモデリングに長期的コンテキストを利用するための対話モデルの能力を大幅に向上することが示された。
最後に、Re$^3$Dialで対話コーパスを効率的に再スケーリングするためのツールキットを構築し、11.3ターンで1B中国語対話セッションを含むコーパスを構築できる(元のEVAコーパスより5倍長い)。
UDSRモデル、ツールキット、およびデータをパブリックに利用するためにリリースします。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Conversation Chronicles: Towards Diverse Temporal and Relational
Dynamics in Multi-Session Conversations [9.249662593315541]
我々は,長期会話設定を実装するために,新たに100万件の多セッション対話データセットであるConversation Chroniclesを導入する。
会話年代記の対話エピソードは、一貫性と一貫した相互作用を維持しながら、それらの特性を反映していることを示す。
また、時系列要約と対話生成モジュールで構成されるReBotと呼ばれる対話モデルを提案する。
論文 参考訳(メタデータ) (2023-10-20T11:06:21Z) - DialoGPS: Dialogue Path Sampling in Continuous Semantic Space for Data
Augmentation in Multi-Turn Conversations [18.98951277038404]
オープンドメイン対話生成タスクでは、ほとんどのデータセットのコンテキストとレスポンスは1対1でマッピングされる。
連続意味空間におけるDialoGue Path Smpling(DialoGPS)を提案する。
論文 参考訳(メタデータ) (2023-06-29T08:12:47Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - Sparse and Dense Approaches for the Full-rank Retrieval of Responses for
Dialogues [11.726528038065764]
我々は、数百万のレスポンスを最大$n$で検索する、より現実的なレスポンス検索のタスクに焦点を当てている。
3つの異なる情報探索対話データセットに基づいて,学習された応答拡大手法がスパース検索の確固たるベースラインであることを明らかにする。
中間訓練で高密度な検索を行うのに最適な手法が得られ、次いでターゲットの会話データを微調整する。
論文 参考訳(メタデータ) (2022-04-22T08:15:15Z) - Dialogue Summaries as Dialogue States (DS2), Template-Guided
Summarization for Few-shot Dialogue State Tracking [16.07100713414678]
DST(Few-shot dialogue state tracking)は、この問題に対する現実的な解決策である。
本稿では,対話状態追跡を対話要約問題として再検討する。
論文 参考訳(メタデータ) (2022-03-03T07:54:09Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。