論文の概要: Extended Self-Critical Pipeline for Transforming Videos to Text
(TRECVID-VTT Task 2021) -- Team: MMCUniAugsburg
- arxiv url: http://arxiv.org/abs/2112.14100v1
- Date: Tue, 28 Dec 2021 11:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 15:23:31.359278
- Title: Extended Self-Critical Pipeline for Transforming Videos to Text
(TRECVID-VTT Task 2021) -- Team: MMCUniAugsburg
- Title(参考訳): TRECVID-VTT Task 2021(TRECVID-VTT Task 2021)拡張自己批判パイプライン-チーム:MMCUniAugsburg
- Authors: Philipp Harzig, Moritz Einfalt, Katja Ludwig, Rainer Lienhart
- Abstract要約: VTTモデルのトレーニングには、VATEXとTRECVID-VTTデータセットを使用します。
どちらのモデルも、事前トレーニングのために完全なVATEXデータセットとTRECVID-VTTデータセットの90%をトレーニングします。
両モデルを自己臨界シーケンストレーニングで微調整し、検証性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 23.456295046913407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Multimedia and Computer Vision Lab of the University of Augsburg
participated in the VTT task only. We use the VATEX and TRECVID-VTT datasets
for training our VTT models. We base our model on the Transformer approach for
both of our submitted runs. For our second model, we adapt the X-Linear
Attention Networks for Image Captioning which does not yield the desired bump
in scores. For both models, we train on the complete VATEX dataset and 90% of
the TRECVID-VTT dataset for pretraining while using the remaining 10% for
validation. We finetune both models with self-critical sequence training, which
boosts the validation performance significantly. Overall, we find that training
a Video-to-Text system on traditional Image Captioning pipelines delivers very
poor performance. When switching to a Transformer-based architecture our
results greatly improve and the generated captions match better with the
corresponding video.
- Abstract(参考訳): アウクスブルク大学のマルチメディア・コンピュータビジョン研究所は、VTTタスクのみに参加した。
VTTモデルのトレーニングには、VATEXとTRECVID-VTTデータセットを使用します。
私たちは、提案された両方の実行に対してTransformerアプローチに基づいています。
第2のモデルでは、画像キャプションのためのX-Linear Attention Networksを適用する。
両モデルとも、検証に残りの10%を使用しながら、完全なVATEXデータセットとTRECVID-VTTデータセットの90%を事前トレーニングします。
両モデルを自己臨界シーケンストレーニングで微調整し、検証性能を大幅に向上させる。
全体として、従来のImage CaptioningパイプラインでVideo-to-Textシステムのトレーニングを行うと、非常にパフォーマンスが悪くなります。
Transformerベースのアーキテクチャに切り替えると、結果は大幅に改善され、生成されたキャプションは対応するビデオにマッチする。
関連論文リスト
- Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and
Resolution [34.05028995319689]
Vision Transformer (ViT) モデルはフレキシブルなシーケンスベースのモデリングを提供する。
Native Resolution ViTはトレーニング中にシーケンスパッキングを使用して任意の解像度とアスペクト比の入力を処理する。
NaViTは画像やビデオの分類、オブジェクトの検出、セマンティックセグメンテーションといった標準的なタスクに効率的に転送できる。
論文 参考訳(メタデータ) (2023-07-12T17:01:03Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Video Graph Transformer for Video Question Answering [182.14696075946742]
本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。
事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:51:32Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Convolutional Xformers for Vision [2.7188347260210466]
視覚変換器(ViT)は、特定のベンチマークにおける最先端の精度にもかかわらず、画像処理において限られた実用的利用しか見つからない。
限られた使用理由としては、畳み込みニューラルネットワーク(CNN)と比較して、より大きなトレーニングデータセットと計算リソースの必要性がある。
本稿では,これらの制約を克服するために,線形アテンション-畳み込みハイブリッドアーキテクチャーであるConvolutional X-formers for Vision (CXV)を提案する。
二次的注意をPerformer,Nystr"omformer,Linear Transformerなどの線形注意機構に置き換えてGPU使用量を削減する。
論文 参考訳(メタデータ) (2022-01-25T12:32:09Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。