論文の概要: MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal
Open-domain Conversation
- arxiv url: http://arxiv.org/abs/2211.05719v1
- Date: Thu, 10 Nov 2022 17:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 14:02:08.130673
- Title: MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal
Open-domain Conversation
- Title(参考訳): MMDialog:マルチモーダルオープンドメイン会話に向けた大規模マルチターン対話データセット
- Authors: Jiazhan Feng, Qingfeng Sun, Can Xu, Pu Zhao, Yaming Yang, Chongyang
Tao, Dongyan Zhao, Qingwei Lin
- Abstract要約: マルチモーダル会話をより容易にするためのMDDialogデータセットを導入する。
MMDialogは1億800万の現実世界の対話と4,184のトピックにわたる1億3300万のユニークな画像からなるキュレートされたセットで構成されている。
このデータセットを用いて対話システムを構築するために,2つの応答生成タスクを提案し,標準化する。
- 参考スコア(独自算出の注目度): 68.53133207668856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Responding with multi-modal content has been recognized as an essential
capability for an intelligent conversational agent. In this paper, we introduce
the MMDialog dataset to better facilitate multi-modal conversation. MMDialog is
composed of a curated set of 1.08 million real-world dialogues with 1.53
million unique images across 4,184 topics. MMDialog has two main and unique
advantages. First, it is the largest multi-modal conversation dataset by the
number of dialogues by 8x. Second, it contains massive topics to generalize the
open-domain. To build engaging dialogue system with this dataset, we propose
and normalize two response producing tasks based on retrieval and generative
scenarios. In addition, we build two baselines for above tasks with
state-of-the-art techniques and report their experimental performance. We also
propose a novel evaluation metric MM-Relevance to measure the multi-modal
responses. Our dataset and scripts are available in
https://github.com/victorsungo/MMDialog.
- Abstract(参考訳): マルチモーダルコンテンツによる応答は、インテリジェントな会話エージェントにとって不可欠な能力であると認識されている。
本稿では,マルチモーダル会話をより容易にするためのMDDialogデータセットを提案する。
MMDialogは1億800万の現実世界の対話と4,184のトピックにわたる1億3300万のユニークな画像で構成されている。
MMDialogには2つの利点がある。
まず,対話数8倍のマルチモーダル会話データセットとして最大である。
第二に、オープンドメインを一般化するための膨大なトピックが含まれている。
このデータセットを用いて対話システムを構築するために,検索シナリオと生成シナリオに基づく2つの応答生成タスクを提案する。
さらに,上述の課題に対する最新技術による2つのベースラインを構築し,実験性能を報告する。
また,マルチモーダル応答を測定するための新しい評価指標MM-Relevanceを提案する。
データセットとスクリプトはhttps://github.com/victorsungo/MMDialog.comで公開しています。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue [50.279206765971125]
本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
論文 参考訳(メタデータ) (2023-02-28T15:45:20Z) - Dialog Inpainting: Turning Documents into Dialogs [12.131506050808207]
私たちは2つのデータセットを作成し、1900万の多様な情報検索ダイアログを作成しました。
WikiDialogの回答の妥当性と会話性は、既存の手作業によるデータセットよりも優れているか、あるいは優れていると判断する。
論文 参考訳(メタデータ) (2022-05-18T16:58:50Z) - MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.81525961469494]
マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。
MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。
本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
論文 参考訳(メタデータ) (2022-02-28T09:40:46Z) - OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset
with Visual Contexts [20.37658842432543]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。
OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文 参考訳(メタデータ) (2021-09-27T02:10:29Z) - Fusing task-oriented and open-domain dialogues in conversational agents [12.338220374261343]
2つの対話モードは、友好的な人間のアシスタントが簡単に行うように、同じ会話でシームレスに連携することができる。
本稿では,マルチターン対話におけるTODとODDの融合の問題に対処する。
すなわち、対話は2つのモードから切り替わる。
論文 参考訳(メタデータ) (2021-09-09T09:48:26Z) - Towards Conversational Recommendation over Multi-Type Dialogs [78.52354759386296]
ボットは、非推奨ダイアログからレコメンデーションダイアログへの会話を積極的に自然に導くことができる。
この課題の研究を容易にするために,人間と人による中国語対話データセットemphDuRecDial(約10k対話,約156k発話)を作成する。
各ダイアログでは、リコメンデータが積極的にマルチタイプのダイアログを導き、レコメンデーションターゲットにアプローチし、リッチなインタラクション動作で複数のレコメンデーションを行う。
論文 参考訳(メタデータ) (2020-05-08T11:01:21Z) - UniConv: A Unified Conversational Neural Architecture for Multi-domain
Task-oriented Dialogues [101.96097419995556]
ユニコンブ」はタスク指向対話におけるエンドツーエンド対話システムのための新しい統合型ニューラルネットワークである。
我々は、MultiWOZ2.1ベンチマークにおいて、対話状態追跡、コンテキスト・ツー・テキスト、エンドツーエンド設定の包括的な実験を行う。
論文 参考訳(メタデータ) (2020-04-29T16:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。