論文の概要: PRODIGy: a PROfile-based DIalogue Generation dataset
- arxiv url: http://arxiv.org/abs/2311.05195v2
- Date: Tue, 27 Aug 2024 14:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 20:08:36.305956
- Title: PRODIGy: a PROfile-based DIalogue Generation dataset
- Title(参考訳): PRODIGy: Profile ベースのダイアログ生成データセット
- Authors: Daniela Occhipinti, Serra Sinem Tekiroglu, Marco Guerini,
- Abstract要約: コミュニケーションスタイル, 伝記, パーソナリティなど, 各対話が可能なすべての話者表現と整合する新たなリソースを提案する。
このフレームワークは、複数のプロファイル構成を持つ生成言語モデルを使用して構築されたいくつかのベースラインをテストすることができる。
- 参考スコア(独自算出の注目度): 12.566555088877871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Providing dialogue agents with a profile representation can improve their consistency and coherence, leading to better conversations. However, current profile-based dialogue datasets for training such agents contain either explicit profile representations that are simple and dialogue-specific, or implicit representations that are difficult to collect. In this work, we propose a unified framework in which we bring together both standard and more sophisticated profile representations by creating a new resource where each dialogue is aligned with all possible speaker representations such as communication style, biographies, and personality. This framework allows to test several baselines built using generative language models with several profile configurations. The automatic evaluation shows that profile-based models have better generalisation capabilities than models trained on dialogues only, both in-domain and cross-domain settings. These results are consistent for fine-tuned models and instruction-based LLMs. Additionally, human evaluation demonstrates a clear preference for generations consistent with both profile and context. Finally, to account for possible privacy concerns, all experiments are done under two configurations: inter-character and intra-character. In the former, the LM stores the information about the character in its internal representation, while in the latter, the LM does not retain any personal information but uses it only at inference time.
- Abstract(参考訳): プロファイル表現を持つ対話エージェントを提供することで、一貫性と一貫性が向上し、会話の質が向上する。
しかし、このようなエージェントを訓練するための現在のプロファイルベースの対話データセットには、単純で対話特有の明示的なプロファイル表現、あるいは収集が難しい暗黙の表現が含まれる。
本研究では,コミュニケーションスタイル,バイオグラフィ,パーソナリティなどの可能なすべての話者表現と対話が一致した新たなリソースを作成することにより,標準およびより洗練されたプロファイル表現を一体化する統一的なフレームワークを提案する。
このフレームワークは、複数のプロファイル構成を持つ生成言語モデルを使用して構築されたいくつかのベースラインをテストすることができる。
自動評価により、プロファイルベースのモデルは、ドメイン内設定とドメイン間設定の両方で、対話でのみ訓練されたモデルよりも、より優れた一般化能力を有することが示された。
これらの結果は、微調整されたモデルと命令ベースのLLMに一貫性がある。
さらに、人間の評価は、プロファイルとコンテキストの両方に整合した世代に対する明確な選好を示す。
最後に、プライバシー上の懸念を考慮し、すべての実験は、インターキャラクタとイントラキャラクタの2つの構成の下で行われる。
前者では、LMは文字に関する情報を内部表現に格納するが、後者では、LMは個人情報を一切保持せず、推論時にのみ使用する。
関連論文リスト
- BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model [12.617285298415013]
大規模言語モデル(LLM)の急速な進歩はロールプレイングに革命をもたらし、一般的なロールプレイングモデルの開発を可能にした。
現在のロールプレイングトレーニングには2つの大きな問題がある: (I) 特定のシナリオに対する対話トレーニングを促すために事前に定義されたロールプロファイルを使用することで、対話とプロファイルの間に矛盾や矛盾が生じ、トレーニングバイアスが生じる。
我々はこれらのハードルを克服するために、DIALOGUEと呼ばれるシンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-20T14:47:38Z) - Apollonion: Profile-centric Dialog Agent [9.657755354649048]
本稿では,ユーザプロファイリング(初期化,更新)を組み込むダイアログエージェントのフレームワークを提案する。
本稿では,パーソナライズのための一連の評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-04-10T03:32:41Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Representation Learning for Conversational Data using Discourse Mutual
Information Maximization [9.017156603976915]
構造を意識しない単語・バイ・ワード生成は効果的な会話モデリングには適さないと我々は主張する。
対話表現モデルの学習のための構造認識型相互情報に基づく損失関数DMIを提案する。
本モデルでは,対話評価タスクであるDailyDialog++において,ランダムな負のシナリオと逆のシナリオの両方において,最も有望な性能を示す。
論文 参考訳(メタデータ) (2021-12-04T13:17:07Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - CREDIT: Coarse-to-Fine Sequence Generation for Dialogue State Tracking [44.38388988238695]
対話状態トラッカーは、現在の対話状態のコンパクトな表現を正確に見つけることを目的としている。
我々はシーケンス生成問題として構造化状態表現とキャスト対話状態追跡を用いる。
我々のトラッカーは,MultiWOZ 2.0とMultiWOZ 2.1データセットの5つの領域で共同目標精度を向上することを示した。
論文 参考訳(メタデータ) (2020-09-22T10:27:18Z) - Prototype-to-Style: Dialogue Generation with Style-Aware Editing on
Retrieval Memory [65.98002918470543]
文体対話生成の課題に対処する新しいプロトタイプ・ツー・スタイルのフレームワークを提案する。
このフレームワークは、IR(Information Retrieval)システムを使用して、検索した応答から応答プロトタイプを抽出する。
スタイリスティック応答生成器は、プロトタイプと所望の言語スタイルをモデル入力として、高品質でスタイリスティックな応答を得る。
論文 参考訳(メタデータ) (2020-04-05T14:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。