論文の概要: Synchronized Audio-Visual Frames with Fractional Positional Encoding for
Transformers in Video-to-Text Translation
- arxiv url: http://arxiv.org/abs/2112.14088v1
- Date: Tue, 28 Dec 2021 10:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 15:23:55.925054
- Title: Synchronized Audio-Visual Frames with Fractional Positional Encoding for
Transformers in Video-to-Text Translation
- Title(参考訳): ビデオ-テキスト翻訳における変圧器のフラクショナル位置符号化を用いた同期オーディオ-ビジュアルフレーム
- Authors: Philipp Harzig, Moritz Einfalt, Rainer Lienhart
- Abstract要約: Video-to-Text (VTT) は、短いビデオクリップのための記述を自動的に生成するタスクである。
トランスフォーマーは、機械翻訳と画像キャプションの両方で優れた性能を示しており、VTTの単純かつ再現性に欠ける。
我々は,画像キャプションやビデオ処理から有望なアプローチを探求し,簡単なトランスフォーマーアーキテクチャを開発することでVTTに適用する。
- 参考スコア(独自算出の注目度): 26.36252496316238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-Text (VTT) is the task of automatically generating descriptions for
short audio-visual video clips, which can support visually impaired people to
understand scenes of a YouTube video for instance. Transformer architectures
have shown great performance in both machine translation and image captioning,
lacking a straightforward and reproducible application for VTT. However, there
is no comprehensive study on different strategies and advice for video
description generation including exploiting the accompanying audio with fully
self-attentive networks. Thus, we explore promising approaches from image
captioning and video processing and apply them to VTT by developing a
straightforward Transformer architecture. Additionally, we present a novel way
of synchronizing audio and video features in Transformers which we call
Fractional Positional Encoding (FPE). We run multiple experiments on the VATEX
dataset to determine a configuration applicable to unseen datasets that helps
describe short video clips in natural language and improved the CIDEr and
BLEU-4 scores by 37.13 and 12.83 points compared to a vanilla Transformer
network and achieve state-of-the-art results on the MSR-VTT and MSVD datasets.
Also, FPE helps increase the CIDEr score by a relative factor of 8.6%.
- Abstract(参考訳): Video-to-Text(VTT)は、例えばYouTubeビデオのシーンを理解するために視覚障害者をサポートする、短いオーディオ・ビジュアルビデオクリップの説明を自動的に生成するタスクである。
トランスフォーマーアーキテクチャは、機械翻訳と画像キャプションの両方において優れた性能を示しており、vttの単純かつ再現可能な応用を欠いている。
しかし、完全自己注意型ネットワークで付随する音声を活用するなど、様々な戦略やビデオ記述生成のアドバイスについて包括的な研究は行われていない。
そこで我々は,画像キャプションやビデオ処理から有望なアプローチを探求し,簡単なトランスフォーマーアーキテクチャを開発することでVTTに適用する。
さらに,FPE(Fractional Positional Encoding)と呼ばれるトランスフォーマーにおいて,音声と映像の特徴を同期させる新しい手法を提案する。
我々は、VATEXデータセット上で複数の実験を行い、自然言語で短いビデオクリップを記述するのに役立ち、Vanilla Transformerネットワークと比較してCIDErとBLEU-4のスコアを37.13と12.83に改善し、MSR-VTTとMSVDデータセットの最先端結果を得る、未確認データセットに適用可能な構成を決定する。
また、FPEはCIDErのスコアを8.6%向上させるのに役立つ。
関連論文リスト
- HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z) - Auto-captions on GIF: A Large-scale Video-sentence Dataset for
Vision-language Pre-training [112.91603911837436]
GIFデータセットのオートキャプションは、ジェネリックビデオ理解のための新しい大規模事前トレーニングデータセットである。
すべてのビデオ文ペアは、数十億のWebページからビデオキャプションアノテーションを自動的に抽出してフィルタリングすることによって作成される。
論文 参考訳(メタデータ) (2020-07-05T16:11:57Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。