論文の概要: ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2105.10154v1
- Date: Fri, 21 May 2021 06:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:26:47.365418
- Title: ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search
- Title(参考訳): vipnas:ニューラルネットワークによる効率的な映像ポーズ推定
- Authors: Lumin Xu, Yingda Guan, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo,
Wanli Ouyang, Xiaogang Wang
- Abstract要約: 高速なオンラインビデオポーズ推定のための空間的・時間的ネットワークに対する新しいニューラルネットワーク探索(NAS)手法(ViPNAS)を提案する。
空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。
時間レベルでは、一連の時間的特徴融合から検索し、複数のビデオフレームの合計精度と速度を最適化する。
- 参考スコア(独自算出の注目度): 94.90294600817215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation has achieved significant progress in recent years.
However, most of the recent methods focus on improving accuracy using
complicated models and ignoring real-time efficiency. To achieve a better
trade-off between accuracy and efficiency, we propose a novel neural
architecture search (NAS) method, termed ViPNAS, to search networks in both
spatial and temporal levels for fast online video pose estimation. In the
spatial level, we carefully design the search space with five different
dimensions including network depth, width, kernel size, group number, and
attentions. In the temporal level, we search from a series of temporal feature
fusions to optimize the total accuracy and speed across multiple video frames.
To the best of our knowledge, we are the first to search for the temporal
feature fusion and automatic computation allocation in videos. Extensive
experiments demonstrate the effectiveness of our approach on the challenging
COCO2017 and PoseTrack2018 datasets. Our discovered model family, S-ViPNAS and
T-ViPNAS, achieve significantly higher inference speed (CPU real-time) without
sacrificing the accuracy compared to the previous state-of-the-art methods.
- Abstract(参考訳): 人間のポーズ推定は近年大きな進歩を遂げている。
しかし,最近の手法のほとんどは,複雑なモデルを用いた精度向上とリアルタイム効率の無視に重点を置いている。
精度と効率のトレードオフを改善するために、高速なオンラインビデオポーズ推定のための空間的および時間的レベルのネットワークに対して、ViPNASと呼ばれる新しいニューラルアーキテクチャサーチ(NAS)手法を提案する。
空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。
時間レベルでは、複数のビデオフレームにわたる総精度と速度を最適化するために、一連の時間的特徴融合から探索する。
私たちの知る限りでは、ビデオにおける時間的特徴の融合と自動計算の割り当てを初めて検索する。
大規模な実験は、挑戦的なCOCO2017とPoseTrack2018データセットに対する我々のアプローチの有効性を実証している。
得られたモデルファミリーであるS-ViPNASとT-ViPNASは,従来の最先端手法と比較して精度を犠牲にすることなく,推論速度(CPUリアルタイム)を大幅に向上する。
関連論文リスト
- A Pairwise Comparison Relation-assisted Multi-objective Evolutionary Neural Architecture Search Method with Multi-population Mechanism [58.855741970337675]
ニューラルアーキテクチャサーチ(NAS)により、リサーチ者は広大なサーチスペースを自動的に探索し、効率的なニューラルネットワークを見つけることができる。
NASは重要なボトルネックに悩まされており、探索プロセス中に多くのアーキテクチャを評価する必要がある。
SMEM-NASは,多集団構造に基づく多目的進化アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-22T12:46:22Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - POPNASv2: An Efficient Multi-Objective Neural Architecture Search
Technique [7.497722345725035]
本稿では,POPNASv2と呼ばれるパレート最適プログレッシブ・ニューラル・アーキテクチャ・サーチの新バージョンを提案する。
私たちのアプローチは、最初のバージョンを強化し、パフォーマンスを改善します。
POPNASv2は平均4倍の検索時間でPNASライクな性能を実現することができる。
論文 参考訳(メタデータ) (2022-10-06T14:51:54Z) - NAS-TC: Neural Architecture Search on Temporal Convolutions for Complex
Action Recognition [45.168746142597946]
ニューラルアーキテクチャサーチ-時間畳み込み(NAS-TC)と呼ばれる新しい処理フレームワークを提案する。
第1段階では、古典的なCNNネットワークがバックボーンネットワークとして使われ、計算集約的な特徴抽出タスクが完了する。
第2段階では、セルへの簡単な縫合探索を用いて、比較的軽量な長時間時間依存情報抽出を完了させる。
論文 参考訳(メタデータ) (2021-03-17T02:02:11Z) - Efficient Model Performance Estimation via Feature Histories [27.008927077173553]
ニューラルネットワーク設計のタスクにおける重要なステップは、モデルの性能を評価することである。
この研究では、トレーニングの初期段階におけるネットワークの機能の進化履歴を使用して、プロキシ分類器を構築します。
本手法は,複数の探索アルゴリズムと組み合わせ,より幅広いタスクに対するより良い解を見つけることができることを示す。
論文 参考訳(メタデータ) (2021-03-07T20:41:57Z) - PV-NAS: Practical Neural Architecture Search for Video Recognition [83.77236063613579]
ビデオタスクのためのディープニューラルネットワークは高度にカスタマイズされており、そのようなネットワークの設計にはドメインの専門家と高価な試行錯誤テストが必要である。
ネットワークアーキテクチャ検索の最近の進歩により、画像認識性能は大幅に向上した。
本研究では,実用的ビデオニューラルアーキテクチャ探索(PV-NAS)を提案する。
論文 参考訳(メタデータ) (2020-11-02T08:50:23Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。