論文の概要: Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering
- arxiv url: http://arxiv.org/abs/2305.09107v1
- Date: Tue, 16 May 2023 02:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 16:32:09.081288
- Title: Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering
- Title(参考訳): ビデオの価値は$n\times n$ Images?
変圧器による映像質問応答の高効率化
- Authors: Chenyang Lyu, Tianbo Ji, Yvette Graham, Jennifer Foster
- Abstract要約: 従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームとクエスチョンの間のインタラクションを行う。
既存の視覚言語による事前学習モデルに基づいて,ビデオQAに高効率なアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.659023742381777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional Transformer-based Video Question Answering (VideoQA) approaches
generally encode frames independently through one or more image encoders
followed by interaction between frames and question. However, such schema would
incur significant memory use and inevitably slow down the training and
inference speed. In this work, we present a highly efficient approach for
VideoQA based on existing vision-language pre-trained models where we
concatenate video frames to a $n\times n$ matrix and then convert it to one
image. By doing so, we reduce the use of the image encoder from $n^{2}$ to $1$
while maintaining the temporal structure of the original video. Experimental
results on MSRVTT and TrafficQA show that our proposed approach achieves
state-of-the-art performance with nearly $4\times$ faster speed and only 30%
memory use. We show that by integrating our approach into VideoQA systems we
can achieve comparable, even superior, performance with a significant speed up
for training and inference. We believe the proposed approach can facilitate
VideoQA-related research by reducing the computational requirements for those
who have limited access to budgets and resources. Our code will be made
publicly available for research use.
- Abstract(参考訳): 従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームと質問の間のインタラクションを行う。
しかし、そのようなスキーマは重大なメモリ使用を引き起こし、必然的にトレーニングと推論の速度を遅くする。
本研究では,映像フレームを$n\times n$Matrixに分解し,それを1つの画像に変換する,既存の視覚言語事前学習モデルに基づく,高効率なビデオQA手法を提案する。
これにより、元のビデオの時間構造を維持しながら、イメージエンコーダの使用を$n^{2}$から$$$に削減する。
MSRVTTとTrafficQAの実験結果から,提案手法は高速で30%のメモリ使用量で,最先端の性能をほぼ4倍に向上することが示された。
当社のアプローチをビデオQAシステムに統合することで、トレーニングと推論の大幅なスピードアップで、同等、さらに優れたパフォーマンスを実現できることが示されています。
提案手法は,予算や資源へのアクセスに制限のある者に対する計算要求を減らすことで,ビデオQA関連の研究を促進することができると考えている。
私たちのコードは研究用に公開されます。
関連論文リスト
- Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。
NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。
NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文 参考訳(メタデータ) (2024-09-28T18:21:52Z) - FlashVideo: A Framework for Swift Inference in Text-to-Video Generation [9.665089218030086]
本稿では,高速テキスト・ツー・ビデオ生成に適した新しいフレームワークであるFlashVideoを紹介する。
FlashVideoは推論の時間的複雑さを$mathcalO(L2)$から$mathcalO(L)$に減らし、推論速度を大幅に加速する。
包括的な実験により、FlashVideoは従来の自己回帰型トランスモデルよりも$times9.17$改善され、推論速度はBERTベースのトランスモデルと同じ桁であることが示された。
論文 参考訳(メタデータ) (2023-12-30T00:06:28Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Vision-Language Models Learn Super Images for Efficient Partially
Relevant Video Retrieval [2.303098021872002]
本稿では,部分的関連ビデオ検索のための効率的かつ高性能な手法を提案する。
入力テキストクエリに関連する少なくとも1つのモーメントを含む長いビデオを取得することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T08:38:27Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。