論文の概要: TMT: A Transformer-based Modal Translator for Improving Multimodal
Sequence Representations in Audio Visual Scene-aware Dialog
- arxiv url: http://arxiv.org/abs/2010.10839v1
- Date: Wed, 21 Oct 2020 09:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:51:33.751760
- Title: TMT: A Transformer-based Modal Translator for Improving Multimodal
Sequence Representations in Audio Visual Scene-aware Dialog
- Title(参考訳): tmt:音声視覚シーン認識ダイアログにおけるマルチモーダルシーケンス表現を改善するトランスフォーマティブベースのモーダルトランスレータ
- Authors: Wubo Li, Dongwei Jiang, Wei Zou, Xiangang Li
- Abstract要約: 本稿では,トランスフォーマーを用いたモーダルトランスレータ (TMT) を提案する。
ダイアログシステム技術チャレンジ7のAVSDトラックでは、MTN-TMTがMTNや他の提出モデルより優れています。
- 参考スコア(独自算出の注目度): 21.17325821199423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Visual Scene-aware Dialog (AVSD) is a task to generate responses when
discussing about a given video. The previous state-of-the-art model shows
superior performance for this task using Transformer-based architecture.
However, there remain some limitations in learning better representation of
modalities. Inspired by Neural Machine Translation (NMT), we propose the
Transformer-based Modal Translator (TMT) to learn the representations of the
source modal sequence by translating the source modal sequence to the related
target modal sequence in a supervised manner. Based on Multimodal Transformer
Networks (MTN), we apply TMT to video and dialog, proposing MTN-TMT for the
video-grounded dialog system. On the AVSD track of the Dialog System Technology
Challenge 7, MTN-TMT outperforms the MTN and other submission models in both
Video and Text task and Text Only task. Compared with MTN, MTN-TMT improves all
metrics, especially, achieving relative improvement up to 14.1% on CIDEr. Index
Terms: multimodal learning, audio-visual scene-aware dialog, neural machine
translation, multi-task learning
- Abstract(参考訳): AVSD(Audio Visual Scene-aware Dialog)は、あるビデオについて議論する際に応答を生成するタスクである。
以前の最先端のモデルは、トランスフォーマーベースのアーキテクチャを使用して、このタスクに優れたパフォーマンスを示している。
しかし、モダリティのより良い表現を学ぶにはいくつかの制限がある。
ニューラルネットワーク翻訳(NMT)に着想を得て,トランスフォーマーを用いたモーダルトランスレータ(TMT)を提案し,ソースモーダルシーケンスを関連するターゲットモーダルシーケンスに教師付き方法で翻訳することで,ソースモーダルシーケンスの表現を学習する。
MTN(Multimodal Transformer Networks)に基づいてビデオとダイアログにTMTを適用し,ビデオグラウンドダイアログシステムのためのMTN-TMTを提案する。
Dialog System Technology Challenge 7のAVSDトラックでは、MTN-TMTがビデオおよびテキストタスクとテキストオンリータスクの両方でMTNや他の提出モデルを上回っている。
MTNと比較すると、MTN-TMTは全ての指標、特にCIDErで14.1%の相対的な改善を達成している。
索引語:マルチモーダル学習、音声・視覚シーン認識ダイアログ、ニューラルマシン翻訳、マルチタスク学習
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Bridging Text and Video: A Universal Multimodal Transformer for
Video-Audio Scene-Aware Dialog [39.01822389691502]
マルチモーダル変換器を提案するとともに,異なるモーダル間の関節表現を学習するためのマルチタスク学習手法を提案する。
提案手法は,自然言語生成事前学習モデルからマルチモーダル対話生成タスクまで拡張する。
論文 参考訳(メタデータ) (2020-02-01T07:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。