論文の概要: Searching for Two-Stream Models in Multivariate Space for Video
Recognition
- arxiv url: http://arxiv.org/abs/2108.12957v1
- Date: Mon, 30 Aug 2021 02:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:59:58.314558
- Title: Searching for Two-Stream Models in Multivariate Space for Video
Recognition
- Title(参考訳): ビデオ認識のための多変量空間における2ストリームモデル探索
- Authors: Xinyu Gong, Heng Wang, Zheng Shou, Matt Feiszli, Zhangyang Wang and
Zhicheng Yan
- Abstract要約: 本稿では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。
設計空間において,性能が著しく向上した2ストリームモデルを自動的に発見できることを実証する。
- 参考スコア(独自算出の注目度): 80.25356538056839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional video models rely on a single stream to capture the complex
spatial-temporal features. Recent work on two-stream video models, such as
SlowFast network and AssembleNet, prescribe separate streams to learn
complementary features, and achieve stronger performance. However, manually
designing both streams as well as the in-between fusion blocks is a daunting
task, requiring to explore a tremendously large design space. Such manual
exploration is time-consuming and often ends up with sub-optimal architectures
when computational resources are limited and the exploration is insufficient.
In this work, we present a pragmatic neural architecture search approach, which
is able to search for two-stream video models in giant spaces efficiently. We
design a multivariate search space, including 6 search variables to capture a
wide variety of choices in designing two-stream models. Furthermore, we propose
a progressive search procedure, by searching for the architecture of individual
streams, fusion blocks, and attention blocks one after the other. We
demonstrate two-stream models with significantly better performance can be
automatically discovered in our design space. Our searched two-stream models,
namely Auto-TSNet, consistently outperform other models on standard benchmarks.
On Kinetics, compared with the SlowFast model, our Auto-TSNet-L model reduces
FLOPS by nearly 11 times while achieving the same accuracy 78.9%. On
Something-Something-V2, Auto-TSNet-M improves the accuracy by at least 2% over
other methods which use less than 50 GFLOPS per video.
- Abstract(参考訳): 従来のビデオモデルは、複雑な時空間の特徴を捉えるために単一のストリームに依存している。
SlowFast NetworkやAssembleNetのような2ストリームビデオモデルに関する最近の研究は、補完機能を学ぶために別々のストリームをプリスクライブし、より強力なパフォーマンスを達成する。
しかし、両方のストリームと中間核融合ブロックを手動で設計することは大変な作業であり、非常に大きな設計空間を探索する必要がある。
このような手作業による探索は時間がかかり、計算資源が制限され、探索が不十分な場合、しばしば準最適アーキテクチャで終わる。
本研究では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。
探索変数を6つ含む多変量探索空間を設計し、2ストリームモデルの設計における様々な選択肢を捉える。
さらに,個別のストリーム,融合ブロック,アテンションブロックのアーキテクチャを次々に探索することで,プログレッシブな探索手順を提案する。
設計領域で性能が大幅に向上した2ストリームモデルを自動的に発見できることを示す。
私たちは2ストリームモデル、すなわちAuto-TSNetを標準ベンチマークで一貫して比較した。
Kineticsでは、SlowFastモデルと比較して、Auto-TSNet-LモデルはFLOPSを約11倍削減し、78.9%の精度を達成した。
Something-Something-V2では、ビデオあたり50GFLOPS未満の他の手法に比べて、Auto-TSNet-Mの精度を少なくとも2%向上させる。
関連論文リスト
- Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - PV-NAS: Practical Neural Architecture Search for Video Recognition [83.77236063613579]
ビデオタスクのためのディープニューラルネットワークは高度にカスタマイズされており、そのようなネットワークの設計にはドメインの専門家と高価な試行錯誤テストが必要である。
ネットワークアーキテクチャ検索の最近の進歩により、画像認識性能は大幅に向上した。
本研究では,実用的ビデオニューラルアーキテクチャ探索(PV-NAS)を提案する。
論文 参考訳(メタデータ) (2020-11-02T08:50:23Z) - Deep-n-Cheap: An Automated Search Framework for Low Complexity Deep
Learning [3.479254848034425]
私たちはディープラーニングモデルを探すためのオープンソースのAutoMLフレームワークであるDeep-n-Cheapを紹介します。
私たちのフレームワークは、ベンチマークとカスタムデータセットの両方へのデプロイをターゲットとしています。
Deep-n-Cheapには、トレーニング時間やパラメータ数とパフォーマンスをトレードオフする、ユーザ管理可能な複雑性ペナルティが含まれている。
論文 参考訳(メタデータ) (2020-03-27T13:00:21Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。