論文の概要: NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2207.10388v1
- Date: Thu, 21 Jul 2022 09:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:08:25.012602
- Title: NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition
- Title(参考訳): NSNet: 効率的なビデオ認識のための非可用性抑圧サンプリング
- Authors: Boyang Xia, Wenhao Wu, Haoran Wang, Rui Su, Dongliang He, Haosen Yang,
Xiaoran Fan, Wanli Ouyang
- Abstract要約: 非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
- 参考スコア(独自算出の注目度): 89.84188594758588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is challenging for artificial intelligence systems to achieve accurate
video recognition under the scenario of low computation costs. Adaptive
inference based efficient video recognition methods typically preview videos
and focus on salient parts to reduce computation costs. Most existing works
focus on complex networks learning with video classification based objectives.
Taking all frames as positive samples, few of them pay attention to the
discrimination between positive samples (salient frames) and negative samples
(non-salient frames) in supervisions. To fill this gap, in this paper, we
propose a novel Non-saliency Suppression Network (NSNet), which effectively
suppresses the responses of non-salient frames. Specifically, on the frame
level, effective pseudo labels that can distinguish between salient and
non-salient frames are generated to guide the frame saliency learning. On the
video level, a temporal attention module is learned under dual video-level
supervisions on both the salient and the non-salient representations. Saliency
measurements from both two levels are combined for exploitation of
multi-granularity complementary information. Extensive experiments conducted on
four well-known benchmarks verify our NSNet not only achieves the
state-of-the-art accuracy-efficiency trade-off but also present a significantly
faster (2.4~4.3x) practical inference speed than state-of-the-art methods. Our
project page is at https://lawrencexia2008.github.io/projects/nsnet .
- Abstract(参考訳): 計算コストの低いシナリオ下で正確な映像認識を実現することは人工知能システムにとって困難である。
適応推論に基づく効率的なビデオ認識手法は、典型的にはビデオのプレビューを行い、計算コストを削減するために正常な部分に焦点を当てる。
既存の作品の多くは、ビデオ分類に基づく複雑なネットワーク学習に焦点を当てている。
すべてのフレームを正のサンプルとして捉え、監督において正のサンプル(正のフレーム)と負のサンプル(正のフレーム)の区別に注意を払う人はほとんどいない。
このギャップを埋めるために、本稿では、非塩分フレームの応答を効果的に抑制する新しい非塩分抑制ネットワーク(NSNet)を提案する。
具体的には、フレームレベルでは、サラエントフレームと非サラエントフレームを区別できる効果的な擬似ラベルを生成し、フレームサラエンシー学習を導く。
映像レベルでは、salient表現とnon-salient表現の両方の2つのビデオレベルの監督の下で、時間的注意モジュールが学習される。
2つのレベルから得られた塩分の測定を組み合わせることで、複数の粒度相補情報の活用が可能となる。
4つのよく知られたベンチマークで実施された大規模な実験により、NSNetは最先端の精度と効率のトレードオフを達成するだけでなく、最先端の手法よりもはるかに高速な(2.4〜4.3x)実用的な推論速度を示す。
私たちのプロジェクトページはhttps://lawrencexia2008.github.io/projects/nsnetにあります。
関連論文リスト
- SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-04T06:41:33Z) - Look More but Care Less in Video Recognition [57.96505328398205]
アクション認識法は通常、巨大な計算を避けるために、各ビデオを表すためにいくつかのフレームをサンプリングする。
本稿では,より多くのフレームを利用するために2つのブランチで構成されるAmple and Focal Network (AFNet)を提案する。
論文 参考訳(メタデータ) (2022-11-18T02:39:56Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。