論文の概要: DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded
Dialogue
- arxiv url: http://arxiv.org/abs/2101.00151v1
- Date: Fri, 1 Jan 2021 03:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:17:29.367100
- Title: DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded
Dialogue
- Title(参考訳): dvd:ビデオ接地対話における多段階推論のための診断データセット
- Authors: Hung Le and Chinnadhurai Sankar and Seungwhan Moon and Ahmad Beirami
and Alborz Geramifard and Satwik Kottur
- Abstract要約: 対話と映像の両方を理解するためには, 対話システムが必要となる。
既存のベンチマークには、対話システムを分析するのに十分なアノテーションがありません。
ビデオや対話でさまざまな推論能力をテストすることができる診断データセットを提示する。
- 参考スコア(独自算出の注目度): 30.930757279692163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A video-grounded dialogue system is required to understand both dialogue,
which contains semantic dependencies from turn to turn, and video, which
contains visual cues of spatial and temporal scene variations. Building such
dialogue systems is a challenging problem involving complex multimodal and
temporal inputs, and studying them independently is hard with existing
datasets. Existing benchmarks do not have enough annotations to help analyze
dialogue systems and understand their linguistic and visual reasoning
capability and limitations in isolation. These benchmarks are also not
explicitly designed to minimize biases that models can exploit without actual
reasoning. To address these limitations, in this paper, we present a diagnostic
dataset that can test a range of reasoning abilities on videos and dialogues.
The dataset is designed to contain minimal biases and has detailed annotations
for the different types of reasoning each question requires, including
cross-turn video interval tracking and dialogue object tracking. We use our
dataset to analyze several dialogue system approaches, providing interesting
insights into their abilities and limitations. In total, the dataset contains
$10$ instances of $10$-round dialogues for each of $\sim11k$ synthetic videos,
resulting in more than $100k$ dialogues and $1M$ question-answer pairs. Our
code and dataset will be made public.
- Abstract(参考訳): ビデオ接地対話システムは、ターンからターンまでの意味的依存関係を含む対話と、空間的および時間的シーンのバリエーションの視覚的な手がかりを含むビデオの両方を理解するために必要である。
このような対話システムの構築は、複雑なマルチモーダルおよび時間入力を伴う困難な問題であり、それらを独立して研究することは、既存のデータセットでは困難である。
既存のベンチマークは、対話システムを分析し、言語的および視覚的推論能力と孤立した制限を理解するのに十分なアノテーションを持っていない。
これらのベンチマークは、モデルが実際の推論なしで活用できるバイアスを最小限にするために設計されたものではない。
本稿では,これらの制約に対処するために,ビデオや対話で様々な推論能力をテストする診断データセットを提案する。
データセットは最小限のバイアスを含むように設計されており、クロスターンビデオインターバルトラッキングや対話オブジェクトトラッキングなど、各質問のさまざまなタイプの推論に関する詳細なアノテーションを備えている。
当社のデータセットを使用して、いくつかの対話システムアプローチを分析し、その能力と限界に関する興味深い洞察を提供します。
合計すると、データセットには$sim11k$の合成ビデオごとに10ドルの円の対話のインスタンスが含まれており、結果として$100k$の対話と$1m$の質問と回答のペアがある。
コードとデータセットは公開されます。
関連論文リスト
- DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。