論文の概要: LiveChat: A Large-Scale Personalized Dialogue Dataset Automatically
Constructed from Live Streaming
- arxiv url: http://arxiv.org/abs/2306.08401v1
- Date: Wed, 14 Jun 2023 09:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 19:29:07.085232
- Title: LiveChat: A Large-Scale Personalized Dialogue Dataset Automatically
Constructed from Live Streaming
- Title(参考訳): LiveChat:ライブストリーミングから自動構築された大規模パーソナライズされた対話データセット
- Authors: Jingsheng Gao, Yixin Lian, Ziyi Zhou, Yuzhuo Fu, Baoyuan Wang
- Abstract要約: 提案するLiveChatデータセットは,351のペルソナの平均セッション数が約3800,各ペルソナの詳細なプロファイルが約1億3300万の中国語対話で構成されている。
本稿では、応答モデリングとアドレナ認識の2つの重要なタスクを目標とし、高度な技術に基づく検索ベースラインを提案する。
- 参考スコア(独自算出の注目度): 11.88939304751663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain dialogue systems have made promising progress in recent years.
While the state-of-the-art dialogue agents are built upon large-scale
text-based social media data and large pre-trained models, there is no
guarantee these agents could also perform well in fast-growing scenarios, such
as live streaming, due to the bounded transferability of pre-trained models and
biased distributions of public datasets from Reddit and Weibo, etc. To improve
the essential capability of responding and establish a benchmark in the live
open-domain scenario, we introduce the LiveChat dataset, composed of 1.33
million real-life Chinese dialogues with almost 3800 average sessions across
351 personas and fine-grained profiles for each persona. LiveChat is
automatically constructed by processing numerous live videos on the Internet
and naturally falls within the scope of multi-party conversations, where the
issues of Who says What to Whom should be considered. Therefore, we target two
critical tasks of response modeling and addressee recognition and propose
retrieval-based baselines grounded on advanced techniques. Experimental results
have validated the positive effects of leveraging persona profiles and larger
average sessions per persona. In addition, we also benchmark the
transferability of advanced generation-based models on LiveChat and pose some
future directions for current challenges.
- Abstract(参考訳): 近年,オープンドメイン対話システムは有望な進歩を遂げている。
最先端の対話エージェントは、大規模なテキストベースのソーシャルメディアデータと大規模な事前訓練されたモデルに基づいて構築されているが、RedditやWeiboなどの公開データセットのバウンダリ転送可能性や、ライブストリーミングなど、急速に成長するシナリオでも、これらのエージェントがうまく機能する保証はない。
実写オープンドメインシナリオにおけるベンチマークの応答と確立の本質的な能力を改善するため,351のペルソナの平均セッション数が約3800、各ペルソナの詳細なプロファイルが約1億3300万件からなるLiveChatデータセットを紹介した。
livechatは、インターネット上で多数のライブビデオを処理することで自動的に構築される。
そこで本研究では,応答モデルと宛先認識の2つの重要な課題を対象とし,高度な手法に基づく検索ベースラインを提案する。
実験により、ペルソナプロファイルとペルソナ当たりの平均セッションの活用によるポジティブな効果が検証された。
さらに、LiveChat上の先進世代モデルの転送可能性もベンチマークし、現在の課題に対する今後の方向性を示す。
関連論文リスト
- Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - Deploying a Retrieval based Response Model for Task Oriented Dialogues [8.671263996400844]
タスク指向の対話システムは会話能力が高く、状況の変化に容易に適応でき、ビジネス上の制約に適合する必要がある。
本稿では,これらの基準を満たす対話モデルを開発するための3段階の手順について述べる。
論文 参考訳(メタデータ) (2022-10-25T23:10:19Z) - Towards Efficient Dialogue Pre-training with Transferable and
Interpretable Latent Structure [77.30953347462452]
本稿では、汎用ドメインから下流タスクへ、軽量で透過的な方法で容易に転送可能な潜在構造を持つ対話生成モデルを提案する。
伝達可能な潜在構造のおかげで,我々のモデルは,自動評価と人的評価の両面において,4つの強いベースラインよりも優れた対話応答が得られる。
論文 参考訳(メタデータ) (2022-10-22T14:46:43Z) - Grounding in social media: An approach to building a chit-chat dialogue
model [9.247397520986999]
豊かな人間のような会話能力を持つオープンドメイン対話システムを構築することは、言語生成における根本的な課題の1つである。
知識に基づく対話生成に関する現在の研究は、主にウィキペディアのような事実に基づく構造化知識ソースを法人化または検索することに焦点を当てている。
本手法は,ソーシャルメディア上での人間の反応行動の模倣によって,システムの生会話能力を向上させることを目的とした,より広範かつシンプルなアプローチである。
論文 参考訳(メタデータ) (2022-06-12T09:01:57Z) - Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue
System [120.70726465994781]
マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。
製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。
オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
論文 参考訳(メタデータ) (2022-05-30T12:41:23Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - An Exploratory Study on Long Dialogue Summarization: What Works and
What's Next [33.1899354772074]
本稿では,長文入力問題に対処し,関連する情報を見つけるための3つの戦略を検証し,長文対話の要約について検討する。
QMSum, MediaSum, SummScreenの3つの長文対話データセットによる実験結果から, 検索・推定パイプラインモデルが最も高い性能を示した。
論文 参考訳(メタデータ) (2021-09-10T01:38:26Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。