Fugu-MT 論文翻訳(概要): Multimodal Dialogue State Tracking By QA Approach with Data Augmentation

論文の概要: Multimodal Dialogue State Tracking By QA Approach with Data Augmentation

arxiv url: http://arxiv.org/abs/2007.09903v1
Date: Mon, 20 Jul 2020 06:23:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 13:30:04.038296
Title: Multimodal Dialogue State Tracking By QA Approach with Data Augmentation
Title（参考訳）: データ拡張を用いたQAアプローチによるマルチモーダル対話状態追跡
Authors: Xiangyang Mou, Brandyn Sigouin, Ian Steenstra, Hui Su
Abstract要約: 本稿では,オープンドメイン質問応答(QA)の観点から,AVSD(Audio-Video Scene-Aware Dialogue)タスクを解釈する。提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善されていることがわかった。
参考スコア（独自算出の注目度）: 16.436557991074068
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, a more challenging state tracking task, Audio-Video Scene-Aware Dialogue (AVSD), is catching an increasing amount of attention among researchers. Different from purely text-based dialogue state tracking, the dialogue in AVSD contains a sequence of question-answer pairs about a video and the final answer to the given question requires additional understanding of the video. This paper interprets the AVSD task from an open-domain Question Answering (QA) point of view and proposes a multimodal open-domain QA system to deal with the problem. The proposed QA system uses common encoder-decoder framework with multimodal fusion and attention. Teacher forcing is applied to train a natural language generator. We also propose a new data augmentation approach specifically under QA assumption. Our experiments show that our model and techniques bring significant improvements over the baseline model on the DSTC7-AVSD dataset and demonstrate the potentials of our data augmentation techniques.
Abstract（参考訳）: 近年、より困難な状態追跡タスクであるAudio-Video Scene-Aware Dialogue (AVSD)が研究者の間で注目を集めている。純粋にテキストベースの対話状態追跡とは異なり、AVSDの対話にはビデオに関する一連の質問対が含まれており、与えられた質問に対する最終回答には、ビデオのさらなる理解が必要である。本稿では、オープンドメイン質問回答(QA)の観点からAVSDタスクを解釈し、この問題に対処するためのマルチモーダルなオープンドメインQAシステムを提案する。提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。教師の強制は自然言語生成器の訓練に適用される。また,QA仮定に基づく新たなデータ拡張手法を提案する。実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善され,データ拡張技術の可能性が示された。

関連論文リスト

Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文参考訳（メタデータ） (2025-02-17T12:40:35Z)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。 VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文参考訳（メタデータ） (2022-06-16T03:18:42Z)
Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。 AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文参考訳（メタデータ） (2022-05-11T19:14:39Z)
Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。 A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文参考訳（メタデータ） (2022-03-26T13:03:42Z)
Audio-Visual Scene-Aware Dialog and Reasoning using Audio-Visual Transformers with Joint Student-Teacher Learning [70.56330507503867]
これまでの研究では、AVSD(Audio-Visual Scene-Aware Dialog)タスクを提案し、AVSDデータセットを収集し、AVSD技術を開発し、AVSDチャレンジトラックをホストした。本稿では、DSTC10のための時間的推論とAVSDデータセットの新たな拡張を含む新しいタスクを紹介する。
論文参考訳（メタデータ） (2021-10-13T17:24:16Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)
Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文参考訳（メタデータ） (2020-02-25T06:41:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。