論文の概要: PosMLP-Video: Spatial and Temporal Relative Position Encoding for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2407.02934v1
- Date: Wed, 3 Jul 2024 09:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:55:24.581276
- Title: PosMLP-Video: Spatial and Temporal Relative Position Encoding for Efficient Video Recognition
- Title(参考訳): PosMLP-Video: 効率的なビデオ認識のための空間的・時間的相対的位置符号化
- Authors: Yanbin Hao, Diansong Zhou, Zhicai Wang, Chong-Wah Ngo, Meng Wang,
- Abstract要約: PosMLP-Videoは、ビデオ認識のための軽量だが強力なバックボーンのようなモデルである。
ImageNet1Kで事前トレーニングされたPosMLP-Videoは59.0%/70.3%のトップ-1精度を達成した。
- 参考スコア(独自算出の注目度): 37.62114379192619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, vision Transformers and MLPs have demonstrated remarkable performance in image understanding tasks. However, their inherently dense computational operators, such as self-attention and token-mixing layers, pose significant challenges when applied to spatio-temporal video data. To address this gap, we propose PosMLP-Video, a lightweight yet powerful MLP-like backbone for video recognition. Instead of dense operators, we use efficient relative positional encoding (RPE) to build pairwise token relations, leveraging small-sized parameterized relative position biases to obtain each relation score. Specifically, to enable spatio-temporal modeling, we extend the image PosMLP's positional gating unit to temporal, spatial, and spatio-temporal variants, namely PoTGU, PoSGU, and PoSTGU, respectively. These gating units can be feasibly combined into three types of spatio-temporal factorized positional MLP blocks, which not only decrease model complexity but also maintain good performance. Additionally, we enrich relative positional relationships by using channel grouping. Experimental results on three video-related tasks demonstrate that PosMLP-Video achieves competitive speed-accuracy trade-offs compared to the previous state-of-the-art models. In particular, PosMLP-Video pre-trained on ImageNet1K achieves 59.0%/70.3% top-1 accuracy on Something-Something V1/V2 and 82.1% top-1 accuracy on Kinetics-400 while requiring much fewer parameters and FLOPs than other models. The code is released at https://github.com/zhouds1918/PosMLP_Video.
- Abstract(参考訳): 近年,視覚変換器とMLPは画像理解タスクにおいて顕著な性能を示した。
しかし、自己アテンション層やトークン混合層のような本質的に密度の高い計算演算子は、時空間ビデオデータに適用した場合に重大な課題を生じさせる。
このギャップに対処するために,PosMLP-Videoを提案する。
密接な演算子の代わりに、相対的相対的位置符号化(RPE)を用いてペアのトークン関係を構築し、小さなパラメータ化された相対的位置バイアスを利用して各関係スコアを得る。
具体的には、時空間モデルを実現するために、画像PosMLPの位置ゲーティングユニットを時間的、空間的、時空間的、時空間的、時空間的、すなわちPoTGU、PoSGU、PoSTGUに拡張する。
これらのゲーティングユニットは、モデルの複雑さを減少させるだけでなく、優れた性能を維持するために、3種類の時空間分解位置MLPブロックに組み込むことができる。
さらに、チャネルグルーピングを用いて相対的な位置関係を豊かにする。
3つのビデオ関連タスクの実験結果から,PosMLP-Videoは従来の最先端モデルと比較して,競争速度のトレードオフを実現することが示された。
特にImageNet1Kで事前トレーニングされたPosMLP-Videoは、Somes-Something V1/V2で59.0%/70.3%、Kinetics-400で82.1%、パラメータやFLOPは他のモデルよりはるかに少ない。
コードはhttps://github.com/zhouds1918/PosMLP_Videoで公開されている。
関連論文リスト
- You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - CoordX: Accelerating Implicit Neural Representation with a Split MLP
Architecture [2.6912336656165805]
多層パーセプトロン(MLP)を用いた暗黙の神経表現は、近年、様々なタスクで注目されている。
座標に基づく表現の推論と訓練を高速化する新しい分割アーキテクチャであるCoordXを提案する。
画像,映像,3次元形状表現および描画タスクのベースラインモデルと比較して,最大2.92倍のスピードアップを示す。
論文 参考訳(メタデータ) (2022-01-28T21:30:42Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。