論文の概要: OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts
- arxiv url: http://arxiv.org/abs/2012.15015v1
- Date: Wed, 30 Dec 2020 03:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 18:32:48.112721
- Title: OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts
- Title(参考訳): openvidial:ビジュアルコンテキストを備えた大規模オープンドメイン対話データセット
- Authors: Yuxian Meng, Shuhe Wang, Qinghong Han, Xiaofei Sun, Fei Wu, Rui Yan
and Jiwei Li
- Abstract要約: 大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
- 参考スコア(独自算出の注目度): 35.57757367869986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When humans converse, what a speaker will say next significantly depends on
what he sees. Unfortunately, existing dialogue models generate dialogue
utterances only based on preceding textual contexts, and visual contexts are
rarely considered. This is due to a lack of a large-scale multi-module dialogue
dataset with utterances paired with visual contexts. In this paper, we release
{\bf OpenViDial}, a large-scale multi-module dialogue dataset. The dialogue
turns and visual contexts are extracted from movies and TV series, where each
dialogue turn is paired with the corresponding visual context in which it takes
place. OpenViDial contains a total number of 1.1 million dialogue turns, and
thus 1.1 million visual contexts stored in images. Based on this dataset, we
propose a family of encoder-decoder models leveraging both textual and visual
contexts, from coarse-grained image features extracted from CNNs to
fine-grained object features extracted from Faster R-CNNs. We observe that
visual information significantly improves dialogue generation qualities,
verifying the necessity of integrating multi-modal features for dialogue
learning. Our work marks an important step towards large-scale multi-modal
dialogue learning.
- Abstract(参考訳): 人間が会話するとき、話者が次に何を言うかは、彼が見るものによって大きく異なる。
残念ながら、既存の対話モデルは、先行するテキストコンテキストのみに基づいて対話発話を生成しており、視覚的コンテキストはほとんど考慮されない。
これは、視覚的コンテキストと組み合わせた発話を伴う大規模マルチモジュール対話データセットがないためである。
本稿では,大規模多モジュール対話データセットである {\bf openvidial} をリリースする。
対話のターンと視覚的コンテキストは、映画やテレビシリーズから抽出され、各対話のターンは、それが行われる対応する視覚的コンテキストとペアリングされる。
OpenViDialには、合計で1100万回の対話があり、画像に格納されている視覚的コンテキストは1100万回である。
このデータセットに基づいて,CNNから抽出した粗粒度画像特徴から,より高速なR-CNNから抽出した細粒度オブジェクト特徴まで,テキストと視覚の両方のコンテキストを活用するエンコーダ・デコーダモデル群を提案する。
視覚情報は対話生成の質を著しく向上させ,対話学習のためのマルチモーダル機能の統合の必要性を検証する。
我々の研究は、大規模マルチモーダル対話学習への重要な一歩である。
関連論文リスト
- Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset
with Visual Contexts [20.37658842432543]
より大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。
OpenViDial 2.0は、映画またはテレビシリーズから抽出された合計560万回の対話を含む。
論文 参考訳(メタデータ) (2021-09-27T02:10:29Z) - MMChat: Multi-Modal Chat Dataset on Social Media [8.904627457711683]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話)
架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。
画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文 参考訳(メタデータ) (2021-08-16T15:27:49Z) - Constructing Multi-Modal Dialogue Dataset by Replacing Text with
Semantically Relevant Images [17.076424447172297]
本稿では,人間の介入を最小限に抑えた45kマルチモーダル対話データセットを提案する。
このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈相似性に基づくフィルタリング手法を用いて構成する。
論文 参考訳(メタデータ) (2021-07-19T08:44:11Z) - $C^3$: Compositional Counterfactual Constrastive Learning for
Video-grounded Dialogues [73.04906599884868]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation [35.45552689723718]
実世界におけるマルチモーダルダイアログ生成の特定の事例を解決するためのフレームワークを提案する。
具体的には,テキスト・視覚的特徴間の相互依存をモデル化することを提案する。
テキストと視覚的特徴間の相互依存がモデル化されている場合、バニラモデルよりも顕著なパフォーマンス向上が観察される。
論文 参考訳(メタデータ) (2021-05-30T07:20:28Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。