論文の概要: The JDDC 2.0 Corpus: A Large-Scale Multimodal Multi-Turn Chinese
Dialogue Dataset for E-commerce Customer Service
- arxiv url: http://arxiv.org/abs/2109.12913v1
- Date: Mon, 27 Sep 2021 09:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 02:25:55.278304
- Title: The JDDC 2.0 Corpus: A Large-Scale Multimodal Multi-Turn Chinese
Dialogue Dataset for E-commerce Customer Service
- Title(参考訳): JDDC 2.0 Corpus:Eコマース顧客向け大規模マルチモーダル中国語対話データセット
- Authors: Nan Zhao, Haoran Li, Youzheng Wu, Xiaodong He, Bowen Zhou
- Abstract要約: 主要な中国のEコマースプラットフォームから,大規模マルチモーダルマルチターン対話データセットであるJDDC 2.0を構築した。
このデータセットには、製品ナレッジベースとイメージカテゴリアノテーションに加えて、約24万の対話セッション、300万の発話、507万の画像が含まれている。
本稿では、JDDCマルチモーダル対話チャレンジに参加するトップ5チームのソリューションを、このデータセットに基づいて提示する。
- 参考スコア(独自算出の注目度): 41.496294124948555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of the Internet, more and more people get accustomed to
online shopping. When communicating with customer service, users may express
their requirements by means of text, images, and videos, which precipitates the
need for understanding these multimodal information for automatic customer
service systems. Images usually act as discriminators for product models, or
indicators of product failures, which play important roles in the E-commerce
scenario. On the other hand, detailed information provided by the images is
limited, and typically, customer service systems cannot understand the intents
of users without the input text. Thus, bridging the gap of the image and text
is crucial for the multimodal dialogue task. To handle this problem, we
construct JDDC 2.0, a large-scale multimodal multi-turn dialogue dataset
collected from a mainstream Chinese E-commerce platform (JD.com), containing
about 246 thousand dialogue sessions, 3 million utterances, and 507 thousand
images, along with product knowledge bases and image category annotations. We
present the solutions of top-5 teams participating in the JDDC multimodal
dialogue challenge based on this dataset, which provides valuable insights for
further researches on the multimodal dialogue task.
- Abstract(参考訳): インターネットの普及に伴い、オンラインショッピングに慣れる人がますます増えている。
カスタマーサービスと通信する場合、ユーザーはテキスト、画像、ビデオを使って要求を表現でき、自動顧客サービスシステムのためにこれらのマルチモーダル情報を理解する必要が生じる。
画像は通常、Eコマースのシナリオにおいて重要な役割を果たす製品モデルや製品失敗の指標の差別者として機能する。
一方、画像によって提供される詳細な情報は限られており、通常、カスタマーサービスシステムは入力テキストなしではユーザの意図を理解できない。
したがって,マルチモーダル対話タスクでは画像とテキストのギャップを橋渡しすることが重要である。
この問題に対処するために,中国の主流eコマースプラットフォーム(jd.com)から収集された大規模マルチモーダルマルチターン対話データセットであるjddc 2.0を構築し,約246万の対話セッション,300万の発話,507万の画像と,製品知識ベースと画像カテゴリアノテーションを組み合わせる。
本稿では、JDDCマルチモーダル対話課題に参加するトップ5チームのソリューションを、このデータセットに基づいて提示し、マルチモーダル対話課題に関するさらなる研究に有用な洞察を提供する。
関連論文リスト
- Multi-User MultiWOZ: Task-Oriented Dialogues among Multiple Users [51.34484827552774]
マルチユーザMulti-User MultiWOZデータセットを2つのユーザと1つのエージェント間のタスク指向対話としてリリースする。
これらの対話は、タスク指向のシナリオにおける協調的な意思決定の興味深いダイナミクスを反映している。
本稿では,複数ユーザ間のタスク指向のチャットを簡潔なタスク指向のクエリとして書き換える,マルチユーザコンテキストクエリ書き換えの新しいタスクを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:12:07Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset [18.449076451976236]
本稿では,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。
我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメントを推測するよう促す。
このパイプラインを通じて、高品質で多様な多モード対話データセットであるDialogCCを紹介する。
論文 参考訳(メタデータ) (2022-12-08T07:29:07Z) - MMChat: Multi-Modal Chat Dataset on Social Media [8.904627457711683]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話)
架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。
画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文 参考訳(メタデータ) (2021-08-16T15:27:49Z) - Constructing Multi-Modal Dialogue Dataset by Replacing Text with
Semantically Relevant Images [17.076424447172297]
本稿では,人間の介入を最小限に抑えた45kマルチモーダル対話データセットを提案する。
このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈相似性に基づくフィルタリング手法を用いて構成する。
論文 参考訳(メタデータ) (2021-07-19T08:44:11Z) - CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue
Dataset [58.910961297314415]
CrossWOZは、中国のCross-Domain Wizard-of-Ozタスク指向データセットとしては初めての大規模である。
6K対話セッションと、ホテル、レストラン、アトラクション、メトロ、タクシーを含む5つのドメインの102K発話が含まれている。
論文 参考訳(メタデータ) (2020-02-27T03:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。