論文の概要: An Image is Worth 16x16 Words, What is a Video Worth?
- arxiv url: http://arxiv.org/abs/2103.13915v1
- Date: Thu, 25 Mar 2021 15:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:35:35.525947
- Title: An Image is Worth 16x16 Words, What is a Video Worth?
- Title(参考訳): 画像は16×16ワード、ビデオの価値は?
- Authors: Gilad Sharir, Asaf Noy, Lihi Zelnik-Manor
- Abstract要約: State of the Art (SotA) の精度に達する方法は通常、3D畳み込み層をビデオフレームから時間情報を抽象化する方法として利用する。
各ショートクリップは入力ビデオのごく一部をカバーするため、ビデオの全時間長をカバーするために複数のクリップを推論時にサンプリングする。
我々は,推論に必要なフレーム数を大幅に削減することで,計算ボトルネックに対処する。
- 参考スコア(独自算出の注目度): 14.056790511123866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leading methods in the domain of action recognition try to distill
information from both the spatial and temporal dimensions of an input video.
Methods that reach State of the Art (SotA) accuracy, usually make use of 3D
convolution layers as a way to abstract the temporal information from video
frames. The use of such convolutions requires sampling short clips from the
input video, where each clip is a collection of closely sampled frames. Since
each short clip covers a small fraction of an input video, multiple clips are
sampled at inference in order to cover the whole temporal length of the video.
This leads to increased computational load and is impractical for real-world
applications. We address the computational bottleneck by significantly reducing
the number of frames required for inference. Our approach relies on a temporal
transformer that applies global attention over video frames, and thus better
exploits the salient information in each frame. Therefore our approach is very
input efficient, and can achieve SotA results (on Kinetics dataset) with a
fraction of the data (frames per video), computation and latency. Specifically
on Kinetics-400, we reach 78.8 top-1 accuracy with $\times 30$ less frames per
video, and $\times 40$ faster inference than the current leading method. Code
is available at: https://github.com/Alibaba-MIIL/STAM
- Abstract(参考訳): 動作認識領域におけるリード手法は、入力ビデオの空間的次元と時間的次元の両方から情報を抽出しようとする。
State of the Art (SotA) の精度に達する方法は通常、ビデオフレームから時間情報を抽象化する手段として3D畳み込み層を利用する。
このような畳み込みを利用するには、入力されたビデオから短いクリップをサンプリングする必要がある。
各ショートクリップは入力ビデオのごく一部をカバーするため、ビデオの全時間長をカバーするために複数のクリップを推論時にサンプリングする。
これにより計算負荷が増大し、実世界のアプリケーションでは実用的でない。
推論に必要なフレーム数を著しく削減することで計算ボトルネックに対処する。
提案手法は,ビデオフレームにグローバルな注意を向けた時間変換器に頼り,各フレームの健全な情報をよりよく活用する。
したがって、このアプローチは非常に入力効率が高く、データ(ビデオあたりのフレーム)、計算、レイテンシーのごく一部でsoma結果(kinetics dataset上で)を実現できるのです。
特にkinetics-400では、78.8のtop-1精度に達し、1ビデオにつき$\times 30$のフレーム数と$\times 40$の予測が現在のリードメソッドより速い。
コードは、https://github.com/Alibaba-MIIL/STAMで入手できる。
関連論文リスト
- Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering [14.659023742381777]
従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームとクエスチョンの間のインタラクションを行う。
既存の視覚言語による事前学習モデルに基づいて,ビデオQAに高効率なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-16T02:12:57Z) - Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers [77.52828273633646]
暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2021-06-09T21:16:05Z) - Video Instance Segmentation using Inter-Frame Communication Transformers [28.539742250704695]
最近では、フレーム単位のパイプラインは、フレーム単位のメソッドよりも優れたパフォーマンスを示している。
以前は、フレーム間通信を実現するために、大量の計算とメモリ使用量が必要だった。
フレーム間の情報転送のオーバーヘッドを大幅に低減するフレーム間通信変換器(IFC)を提案する。
論文 参考訳(メタデータ) (2021-06-07T02:08:39Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - No frame left behind: Full Video Action Recognition [26.37329995193377]
我々は全映像の動作認識を提案し,全映像のフレームを考察する。
まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。
次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
論文 参考訳(メタデータ) (2021-03-29T07:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。