論文の概要: Bridging Text and Video: A Universal Multimodal Transformer for
Video-Audio Scene-Aware Dialog
- arxiv url: http://arxiv.org/abs/2002.00163v1
- Date: Sat, 1 Feb 2020 07:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:55:56.039363
- Title: Bridging Text and Video: A Universal Multimodal Transformer for
Video-Audio Scene-Aware Dialog
- Title(参考訳): Bridging Text and Video: Video-Audio Scene-Aware Dialogのためのユニバーサルマルチモーダルトランスフォーマー
- Authors: Zekang Li, Zongjia Li, Jinchao Zhang, Yang Feng, Cheng Niu, Jie Zhou
- Abstract要約: マルチモーダル変換器を提案するとともに,異なるモーダル間の関節表現を学習するためのマルチタスク学習手法を提案する。
提案手法は,自然言語生成事前学習モデルからマルチモーダル対話生成タスクまで拡張する。
- 参考スコア(独自算出の注目度): 39.01822389691502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Scene-Aware Dialog (AVSD) is a task to generate responses when
chatting about a given video, which is organized as a track of the 8th Dialog
System Technology Challenge (DSTC8). To solve the task, we propose a universal
multimodal transformer and introduce the multi-task learning method to learn
joint representations among different modalities as well as generate
informative and fluent responses. Our method extends the natural language
generation pre-trained model to multimodal dialogue generation task. Our system
achieves the best performance in both objective and subjective evaluations in
the challenge.
- Abstract(参考訳): audio-visual scene-aware dialog(avsd)は、第8回ダイアログシステム技術チャレンジ(dstc8)のトラックとして編成された、所定のビデオについてチャットする際に応答を生成するタスクである。
そこで本研究では,汎用マルチモーダル変圧器を提案し,異なるモダリティ間の協調表現を学習し,情報的かつ流れる応答を生成するマルチタスク学習手法を提案する。
本手法は自然言語生成事前学習モデルをマルチモーダル対話生成タスクに拡張する。
本システムは,本課題における客観的評価と主観評価の両方において,最高の性能を達成する。
関連論文リスト
- Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Scene-Aware Prompt for Multi-modal Dialogue Understanding and Generation [20.693465164885325]
本稿では,NLPCC-2022-Shared-Task-4マルチモーダル対話理解・生成(MDUG)におけるTeam LingJingの実験手法を紹介する。
MDUGタスクは、マルチモーダルコンテキスト理解と応答生成の2つのフェーズに分けられる。
シーン理解と対話生成の両方に視覚情報をフル活用するために,MDUGタスクのためのシーン認識プロンプトを提案する。
論文 参考訳(メタデータ) (2022-07-05T05:54:20Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。
入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。
自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文 参考訳(メタデータ) (2020-02-25T06:41:07Z) - Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue
System [13.687071779732285]
本稿では,リカレントニューラルネットワーク(RNN)に基づく多段階共同モダリティアテンションネットワーク(JMAN)を提案する。
本モデルでは,ROUGE-LスコアとCIDErスコアのベースラインよりも12.1%,22.4%向上した。
論文 参考訳(メタデータ) (2020-01-17T09:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。