論文の概要: Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue
System
- arxiv url: http://arxiv.org/abs/2001.06206v1
- Date: Fri, 17 Jan 2020 09:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 12:39:46.758353
- Title: Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue
System
- Title(参考訳): シーン認識対話システムのための多段階共同モダリティ注意ネットワーク
- Authors: Yun-Wei Chu, Kuan-Yen Lin, Chao-Chun Hsu, Lun-Wei Ku
- Abstract要約: 本稿では,リカレントニューラルネットワーク(RNN)に基づく多段階共同モダリティアテンションネットワーク(JMAN)を提案する。
本モデルでは,ROUGE-LスコアとCIDErスコアのベースラインよりも12.1%,22.4%向上した。
- 参考スコア(独自算出の注目度): 13.687071779732285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding dynamic scenes and dialogue contexts in order to converse with
users has been challenging for multimodal dialogue systems. The 8-th Dialog
System Technology Challenge (DSTC8) proposed an Audio Visual Scene-Aware Dialog
(AVSD) task, which contains multiple modalities including audio, vision, and
language, to evaluate how dialogue systems understand different modalities and
response to users. In this paper, we proposed a multi-step joint-modality
attention network (JMAN) based on recurrent neural network (RNN) to reason on
videos. Our model performs a multi-step attention mechanism and jointly
considers both visual and textual representations in each reasoning process to
better integrate information from the two different modalities. Compared to the
baseline released by AVSD organizers, our model achieves a relative 12.1% and
22.4% improvement over the baseline on ROUGE-L score and CIDEr score.
- Abstract(参考訳): ユーザと会話するために動的シーンや対話コンテキストを理解することは、マルチモーダル対話システムでは困難である。
第8回ダイアログシステム技術チャレンジ(DSTC8)では、音声、視覚、言語を含む複数のモードを含むオーディオ視覚シーン認識ダイアログ(AVSD)タスクを提案し、対話システムがユーザに対するさまざまなモダリティや応答をどのように理解するかを評価する。
本稿では,リカレントニューラルネットワーク(recurrent neural network, rnn)に基づく多段階協調モダリティアテンションネットワーク(jman)を提案する。
我々のモデルは多段階の注意機構を実行し、各推論プロセスにおける視覚的表現とテキスト的表現の両方を共同で検討し、2つの異なるモードからの情報をよりよく統合する。
AVSDのオーガナイザがリリースしたベースラインと比較して,ROUGE-LスコアとCIDErスコアのベースラインよりも相対12.1%,22.4%改善した。
関連論文リスト
- VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System [25.17100881568308]
自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。
発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。
事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
論文 参考訳(メタデータ) (2023-05-27T10:06:03Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Scene-Aware Prompt for Multi-modal Dialogue Understanding and Generation [20.693465164885325]
本稿では,NLPCC-2022-Shared-Task-4マルチモーダル対話理解・生成(MDUG)におけるTeam LingJingの実験手法を紹介する。
MDUGタスクは、マルチモーダルコンテキスト理解と応答生成の2つのフェーズに分けられる。
シーン理解と対話生成の両方に視覚情報をフル活用するために,MDUGタスクのためのシーン認識プロンプトを提案する。
論文 参考訳(メタデータ) (2022-07-05T05:54:20Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Overview of the Ninth Dialog System Technology Challenge: DSTC9 [111.35889309106359]
第9回対話システム技術チャレンジ(DSTC-9)は、対話システムにおける4つの異なるタスクにエンドツーエンドの対話技術を適用することに焦点を当てている。
本稿では,各トラックのタスク定義,データセット,ベースライン,評価設定について述べる。
論文 参考訳(メタデータ) (2020-11-12T16:43:10Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。
入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。
自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文 参考訳(メタデータ) (2020-02-25T06:41:07Z) - Bridging Text and Video: A Universal Multimodal Transformer for
Video-Audio Scene-Aware Dialog [39.01822389691502]
マルチモーダル変換器を提案するとともに,異なるモーダル間の関節表現を学習するためのマルチタスク学習手法を提案する。
提案手法は,自然言語生成事前学習モデルからマルチモーダル対話生成タスクまで拡張する。
論文 参考訳(メタデータ) (2020-02-01T07:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。