論文の概要: Stand-Alone Inter-Frame Attention in Video Models
- arxiv url: http://arxiv.org/abs/2206.06931v1
- Date: Tue, 14 Jun 2022 15:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:11:02.480593
- Title: Stand-Alone Inter-Frame Attention in Video Models
- Title(参考訳): ビデオモデルにおけるスタンドアローンフレーム間注意
- Authors: Fuchen Long and Zhaofan Qiu and Yingwei Pan and Ting Yao and Jiebo Luo
and Tao Mei
- Abstract要約: フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
- 参考スコア(独自算出の注目度): 164.06137994796487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion, as the uniqueness of a video, has been critical to the development of
video understanding models. Modern deep learning models leverage motion by
either executing spatio-temporal 3D convolutions, factorizing 3D convolutions
into spatial and temporal convolutions separately, or computing self-attention
along temporal dimension. The implicit assumption behind such successes is that
the feature maps across consecutive frames can be nicely aggregated.
Nevertheless, the assumption may not always hold especially for the regions
with large deformation. In this paper, we present a new recipe of inter-frame
attention block, namely Stand-alone Inter-Frame Attention (SIFA), that novelly
delves into the deformation across frames to estimate local self-attention on
each spatial location. Technically, SIFA remoulds the deformable design via
re-scaling the offset predictions by the difference between two frames. Taking
each spatial location in the current frame as the query, the locally deformable
neighbors in the next frame are regarded as the keys/values. Then, SIFA
measures the similarity between query and keys as stand-alone attention to
weighted average the values for temporal aggregation. We further plug SIFA
block into ConvNets and Vision Transformer, respectively, to devise SIFA-Net
and SIFA-Transformer. Extensive experiments conducted on four video datasets
demonstrate the superiority of SIFA-Net and SIFA-Transformer as stronger
backbones. More remarkably, SIFA-Transformer achieves an accuracy of 83.1% on
Kinetics-400 dataset. Source code is available at
\url{https://github.com/FuchenUSTC/SIFA}.
- Abstract(参考訳): 動画のユニークさとしてのモーションは、ビデオ理解モデルの開発に不可欠である。
現代のディープラーニングモデルは、時空間の3D畳み込みを実行し、3D畳み込みを空間的および時間的畳み込みに分解するか、時間次元に沿って自己注意を計算することによって動きを利用する。
このような成功の背後にある暗黙の仮定は、連続するフレームにまたがる特徴マップをうまく集約できるということである。
しかし、この仮定は大きな変形のある領域に対して常に成り立つとは限らない。
本稿では,各空間位置における局所的自己注意を推定するために,フレーム間の変形を新たに検討する,フレーム間注意ブロック(SIFA)の新たなレシピを提案する。
技術的には、SIFAは2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を取り除きます。
現在のフレーム内の各空間位置をクエリとして、次のフレーム内の局所的に変形可能な隣人をキー/値とみなす。
そして、SIFAは、時間的アグリゲーションの値の重み付け平均に対して、クエリとキーの類似性を単独の注意として測定する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
4つのビデオデータセットで実施された大規模な実験は、強力なバックボーンとしてSIFA-NetとSIFA-Transformerの優位性を示している。
さらに驚くべきことに、SIFA-TransformerはKinetics-400データセットで83.1%の精度を達成した。
ソースコードは \url{https://github.com/FuchenUSTC/SIFA} で入手できる。
関連論文リスト
- Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - TAda! Temporally-Adaptive Convolutions for Video Understanding [17.24510667917993]
時間次元に沿った適応的なウェイトキャリブレーションは、ビデオの複雑な時間力学をモデル化するための効率的な方法である。
TAdaConvは、時間的モデリング能力を持つ空間的畳み込みを、その局所的および大域的時間的文脈に応じて各フレームの畳み込み重みを調整することによって強化する。
我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。
論文 参考訳(メタデータ) (2021-10-12T17:25:07Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Asymmetric Bilateral Motion Estimation for Video Frame Interpolation [50.44508853885882]
非対称な左右運動推定(ABME)に基づく新しいビデオフレームアルゴリズムを提案する。
我々は左右対称運動場を予測してアンカーフレームを補間する。
アンカーフレームから入力フレームへの非対称な左右運動場を推定する。
第三に、非対称場を用いて入力フレームを後方にワープし、中間フレームを再構築する。
論文 参考訳(メタデータ) (2021-08-15T21:11:35Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。