論文の概要: OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset
with Visual Contexts
- arxiv url: http://arxiv.org/abs/2109.12761v2
- Date: Tue, 28 Sep 2021 15:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 12:51:20.835649
- Title: OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset
with Visual Contexts
- Title(参考訳): OpenViDial 2.0:ビジュアルコンテキストを備えた大規模でオープンな対話生成データセット
- Authors: Shuhe Wang, Yuxian Meng, Xiaoya Li, Xiaofei Sun, Rongbin Ouyang, Jiwei
Li
- Abstract要約: より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。
OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
- 参考スコア(独自算出の注目度): 20.37658842432543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to better simulate the real human conversation process, models need
to generate dialogue utterances based on not only preceding textual contexts
but also visual contexts. However, with the development of multi-modal dialogue
learning, the dataset scale gradually becomes a bottleneck. In this report, we
release OpenViDial 2.0, a larger-scale open-domain multi-modal dialogue dataset
compared to the previous version OpenViDial 1.0. OpenViDial 2.0 contains a
total number of 5.6 million dialogue turns extracted from either movies or TV
series from different resources, and each dialogue turn is paired with its
corresponding visual context. We hope this large-scale dataset can help
facilitate future researches on open-domain multi-modal dialog generation,
e.g., multi-modal pretraining for dialogue generation.
- Abstract(参考訳): 実際の人間の会話プロセスをより良くシミュレートするために、モデルは先行するテキストコンテキストだけでなく、視覚的コンテキストにもとづいて対話発話を生成する必要がある。
しかし、マルチモーダル対話学習の発展に伴い、データセットスケールは徐々にボトルネックとなる。
本稿では,OpenViDial 1.0よりも大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。
openvidial 2.0は、異なるリソースから映画またはテレビシリーズから抽出された合計560万の対話ターンを含み、それぞれの対話ターンは対応する視覚コンテキストとペアリングされる。
この大規模データセットは、対話生成のためのマルチモーダルプリトレーニングなど、オープンドメインのマルチモーダルダイアログ生成に関する将来の研究を促進することを願っている。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue [50.279206765971125]
本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
論文 参考訳(メタデータ) (2023-02-28T15:45:20Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal
Open-domain Conversation [68.53133207668856]
マルチモーダル会話をより容易にするためのMDDialogデータセットを導入する。
MMDialogは1億800万の現実世界の対話と4,184のトピックにわたる1億3300万のユニークな画像からなるキュレートされたセットで構成されている。
このデータセットを用いて対話システムを構築するために,2つの応答生成タスクを提案し,標準化する。
論文 参考訳(メタデータ) (2022-11-10T17:37:04Z) - What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? [4.022057598291766]
我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
論文 参考訳(メタデータ) (2022-03-07T14:26:23Z) - Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation [35.45552689723718]
実世界におけるマルチモーダルダイアログ生成の特定の事例を解決するためのフレームワークを提案する。
具体的には,テキスト・視覚的特徴間の相互依存をモデル化することを提案する。
テキストと視覚的特徴間の相互依存がモデル化されている場合、バニラモデルよりも顕著なパフォーマンス向上が観察される。
論文 参考訳(メタデータ) (2021-05-30T07:20:28Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。