論文の概要: Vx2Text: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs
- arxiv url: http://arxiv.org/abs/2101.12059v1
- Date: Thu, 28 Jan 2021 15:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 18:29:03.586673
- Title: Vx2Text: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs
- Title(参考訳): vx2text:マルチモーダル入力によるビデオテキスト生成のエンドツーエンド学習
- Authors: Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh,
Lorenzo Torresani
- Abstract要約: 本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
- 参考スコア(独自算出の注目度): 103.99315770490163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \textsc{Vx2Text}, a framework for text generation from multimodal
inputs consisting of video plus text, speech, or audio. In order to leverage
transformer networks, which have been shown to be effective at modeling
language, each modality is first converted into a set of language embeddings by
a learnable tokenizer. This allows our approach to perform multimodal fusion in
the language space, thus eliminating the need for ad-hoc cross-modal fusion
modules. To address the non-differentiability of tokenization on continuous
inputs (e.g., video or audio), we utilize a relaxation scheme that enables
end-to-end training. Furthermore, unlike prior encoder-only models, our network
includes an autoregressive decoder to generate open-ended text from the
multimodal embeddings fused by the language encoder. This renders our approach
fully generative and makes it directly applicable to different "video+$x$ to
text" problems without the need to design specialized network heads for each
task. The proposed framework is not only conceptually simple but also
remarkably effective: experiments demonstrate that our approach based on a
single architecture outperforms the state-of-the-art on three video-based
text-generation tasks -- captioning, question answering and audio-visual
scene-aware dialog.
- Abstract(参考訳): ビデオ+テキスト、音声、音声からなるマルチモーダル入力からテキストを生成するためのフレームワークである \textsc{vx2text} を提案する。
言語モデリングに有効であることが示されているトランスフォーマーネットワークを活用するために、各モダリティはまず学習可能なトークン化器によって言語埋め込みのセットに変換される。
これにより、言語空間におけるマルチモーダル融合が可能となり、アドホックなクロスモーダル融合モジュールの必要性がなくなる。
連続入力(ビデオやオーディオなど)におけるトークン化の非微分性に対処するために、エンドツーエンドのトレーニングを可能にするリラクゼーションスキームを利用する。
さらに,従来のエンコーダのみのモデルとは異なり,言語エンコーダが融合したマルチモーダル埋め込みからオープンなテキストを生成する自動回帰デコーダも網羅している。
これは、我々のアプローチを完全に生成し、タスクごとに特別なネットワークヘッドを設計する必要なしに、異なる「ビデオ+x$ to text」問題に直接適用します。
提案するフレームワークは概念的に単純であるだけでなく,極めて効果的である。単一のアーキテクチャに基づくアプローチは,映像ベースの3つのテキスト生成タスク – キャプション,質問応答,音声視覚シーン認識ダイアログ – において,最先端の作業よりも優れている,という実験結果が得られた。
関連論文リスト
- Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text
Retrieval [23.418120617544545]
近年,映像テキスト検索のための視覚言語アライメント学習が注目されている。
本稿では,タグ付けによってマルチモーダル情報を明示的に統合し,タグをアンカーとして使用することにより,ビデオテキストのアライメントを向上する。
ビデオとテキストの相互作用を強化するために,映像,タグ,テキストのトリプルト入力による共同モーダルエンコーダを構築し,さらに2つの教師付きタスクを実行する。
論文 参考訳(メタデータ) (2023-01-30T03:53:19Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチモーダルコントラストモデルは、画像やビデオ、テキストのエンティティの整合に非常に効果的であることが示されている。
これらの2行のモデルを多チャンネルビデオ言語検索スタイルのタスクに迅速に適応する方法は明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。