論文の概要: OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts
- arxiv url: http://arxiv.org/abs/2012.15015v1
- Date: Wed, 30 Dec 2020 03:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 18:32:48.112721
- Title: OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts
- Title(参考訳): openvidial:ビジュアルコンテキストを備えた大規模オープンドメイン対話データセット
- Authors: Yuxian Meng, Shuhe Wang, Qinghong Han, Xiaofei Sun, Fei Wu, Rui Yan
and Jiwei Li
- Abstract要約: 大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
- 参考スコア(独自算出の注目度): 35.57757367869986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When humans converse, what a speaker will say next significantly depends on
what he sees. Unfortunately, existing dialogue models generate dialogue
utterances only based on preceding textual contexts, and visual contexts are
rarely considered. This is due to a lack of a large-scale multi-module dialogue
dataset with utterances paired with visual contexts. In this paper, we release
{\bf OpenViDial}, a large-scale multi-module dialogue dataset. The dialogue
turns and visual contexts are extracted from movies and TV series, where each
dialogue turn is paired with the corresponding visual context in which it takes
place. OpenViDial contains a total number of 1.1 million dialogue turns, and
thus 1.1 million visual contexts stored in images. Based on this dataset, we
propose a family of encoder-decoder models leveraging both textual and visual
contexts, from coarse-grained image features extracted from CNNs to
fine-grained object features extracted from Faster R-CNNs. We observe that
visual information significantly improves dialogue generation qualities,
verifying the necessity of integrating multi-modal features for dialogue
learning. Our work marks an important step towards large-scale multi-modal
dialogue learning.
- Abstract(参考訳): 人間が会話するとき、話者が次に何を言うかは、彼が見るものによって大きく異なる。
残念ながら、既存の対話モデルは、先行するテキストコンテキストのみに基づいて対話発話を生成しており、視覚的コンテキストはほとんど考慮されない。
これは、視覚的コンテキストと組み合わせた発話を伴う大規模マルチモジュール対話データセットがないためである。
本稿では,大規模多モジュール対話データセットである {\bf openvidial} をリリースする。
対話のターンと視覚的コンテキストは、映画やテレビシリーズから抽出され、各対話のターンは、それが行われる対応する視覚的コンテキストとペアリングされる。
OpenViDialには、合計で1100万回の対話があり、画像に格納されている視覚的コンテキストは1100万回である。
このデータセットに基づいて,CNNから抽出した粗粒度画像特徴から,より高速なR-CNNから抽出した細粒度オブジェクト特徴まで,テキストと視覚の両方のコンテキストを活用するエンコーダ・デコーダモデル群を提案する。
視覚情報は対話生成の質を著しく向上させ,対話学習のためのマルチモーダル機能の統合の必要性を検証する。
我々の研究は、大規模マルチモーダル対話学習への重要な一歩である。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset
with Visual Contexts [20.37658842432543]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。
OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文 参考訳(メタデータ) (2021-09-27T02:10:29Z) - MMChat: Multi-Modal Chat Dataset on Social Media [8.904627457711683]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話)
架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。
画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文 参考訳(メタデータ) (2021-08-16T15:27:49Z) - Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation [35.45552689723718]
実世界におけるマルチモーダルダイアログ生成の特定の事例を解決するためのフレームワークを提案する。
具体的には,テキスト・視覚的特徴間の相互依存をモデル化することを提案する。
テキストと視覚的特徴間の相互依存がモデル化されている場合、バニラモデルよりも顕著なパフォーマンス向上が観察される。
論文 参考訳(メタデータ) (2021-05-30T07:20:28Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。