論文の概要: Multimodal Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2206.07898v1
- Date: Thu, 16 Jun 2022 03:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 13:40:58.137048
- Title: Multimodal Dialogue State Tracking
- Title(参考訳): マルチモーダル対話状態追跡
- Authors: Hung Le, Nancy F. Chen, Steven C.H. Hoi
- Abstract要約: Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
- 参考スコア(独自算出の注目度): 97.25466640240619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designed for tracking user goals in dialogues, a dialogue state tracker is an
essential component in a dialogue system. However, the research of dialogue
state tracking has largely been limited to unimodality, in which slots and slot
values are limited by knowledge domains (e.g. restaurant domain with slots of
restaurant name and price range) and are defined by specific database schema.
In this paper, we propose to extend the definition of dialogue state tracking
to multimodality. Specifically, we introduce a novel dialogue state tracking
task to track the information of visual objects that are mentioned in
video-grounded dialogues. Each new dialogue utterance may introduce a new video
segment, new visual objects, or new object attributes, and a state tracker is
required to update these information slots accordingly. We created a new
synthetic benchmark and designed a novel baseline, Video-Dialogue Transformer
Network (VDTN), for this task. VDTN combines both object-level features and
segment-level features and learns contextual dependencies between videos and
dialogues to generate multimodal dialogue states. We optimized VDTN for a state
generation task as well as a self-supervised video understanding task which
recovers video segment or object representations. Finally, we trained VDTN to
use the decoded states in a response prediction task. Together with
comprehensive ablation and qualitative analysis, we discovered interesting
insights towards building more capable multimodal dialogue systems.
- Abstract(参考訳): 対話におけるユーザ目標を追跡するために設計された対話状態トラッカーは、対話システムにおいて不可欠なコンポーネントである。
しかし、対話状態追跡の研究は、知識ドメイン(レストラン名と価格範囲のスロットを持つレストランドメインなど)によってスロットとスロットの値が制限され、特定のデータベーススキーマによって定義される一様性に大きく制限されている。
本稿では,対話状態追跡の定義をマルチモーダルに拡張することを提案する。
具体的には,ビデオ接地対話で言及される視覚物体の情報を追跡するための対話状態追跡タスクを提案する。
新しい対話発話は、新しいビデオセグメント、新しいビジュアルオブジェクト、または新しいオブジェクト属性を導入し、それに応じてこれらの情報スロットを更新するために状態トラッカーが必要となる。
我々は新しい合成ベンチマークを作成し,新しいベースラインであるvdtn(video-dialogue transformer network)を設計した。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
我々は,映像セグメントやオブジェクト表現を復元する自己教師付きビデオ理解タスクと同様に,状態生成タスクにVDTNを最適化した。
最後に、VDTNに応答予測タスクでデコードされた状態を使用するように訓練した。
包括的アブレーションと質的分析とともに,より有能なマルチモーダル対話システムを構築するための興味深い知見を得た。
関連論文リスト
- OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for
Video-Grounded Dialog [10.290057801577662]
OLViTは、マルチモーダルアテンションベースのダイアログ状態トラッカー上で動作するビデオダイアログの新しいモデルである。
オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を保持する。
論文 参考訳(メタデータ) (2024-02-20T17:00:59Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System [25.17100881568308]
自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。
発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。
事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
論文 参考訳(メタデータ) (2023-05-27T10:06:03Z) - Act-Aware Slot-Value Predicting in Multi-Domain Dialogue State Tracking [5.816391291790977]
対話状態追跡(DST)は、人間と機械の相互作用を追跡し、対話を管理するための状態表現を生成することを目的としている。
機械読解の最近の進歩は、対話状態追跡のための分類型と非分類型のスロットの両方を予測する。
我々は対話行為を定式化し、機械読解の最近の進歩を活用し、対話状態追跡のためのカテゴリー型と非カテゴリ型の両方のスロットを予測する。
論文 参考訳(メタデータ) (2022-08-04T05:18:30Z) - Beyond the Granularity: Multi-Perspective Dialogue Collaborative
Selection for Dialogue State Tracking [18.172993687706708]
対話状態追跡においては、対話履歴は重要な材料であり、その利用法は異なるモデルによって異なる。
状態更新のために各スロットに対応する対話内容を動的に選択するDiCoS-DSTを提案する。
提案手法は,MultiWOZ 2.1およびMultiWOZ 2.2上での最先端性能を実現し,複数の主流ベンチマークデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-05-20T10:08:45Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - UniConv: A Unified Conversational Neural Architecture for Multi-domain
Task-oriented Dialogues [101.96097419995556]
ユニコンブ」はタスク指向対話におけるエンドツーエンド対話システムのための新しい統合型ニューラルネットワークである。
我々は、MultiWOZ2.1ベンチマークにおいて、対話状態追跡、コンテキスト・ツー・テキスト、エンドツーエンド設定の包括的な実験を行う。
論文 参考訳(メタデータ) (2020-04-29T16:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。