論文の概要: Video Classification with FineCoarse Networks
- arxiv url: http://arxiv.org/abs/2103.15584v1
- Date: Mon, 29 Mar 2021 13:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:51:20.185838
- Title: Video Classification with FineCoarse Networks
- Title(参考訳): ファインコアスネットワークを用いた映像分類
- Authors: Guoxi Huang and Adrian G. Bors
- Abstract要約: 生ビデオデータ中の粗い情報から細粒度情報を分離するモーションバンドパスモジュールを提案する。
粗い情報を低解像度で表現することで、映像データ処理の効率化を実現します。
提案手法は,Something V1上で57.0%のTop-1精度で最先端を実現する。
- 参考スコア(独自算出の注目度): 15.437390373921207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A rich representation of the information in video data can be realized by
means of frequency analysis. Fine motion details from the boundaries of moving
regions are characterized by high frequencies in the spatio-temporal domain.
Meanwhile, lower frequencies are encoded with coarse information containing
substantial redundancy, which causes low efficiency for those video models that
take as input raw RGB frames. In this work, we propose a Motion Band-pass
Module (MBPM) for separating the fine-grained information from coarse
information in raw video data. By representing the coarse information with low
resolution, we can increase the efficiency of video data processing. By
embedding the MBPM into a two-pathway CNN architecture, we define a FineCoarse
network. The efficiency of the FineCoarse network is determined by avoiding the
redundancy in the feature space processed by the two pathways: one operates on
downsampled features of low-resolution data, while the other operates on the
fine-grained motion information captured by the MBPM. The proposed FineCoarse
network outperforms many recent video processing models on Kinetics400, UCF101
and HMDB51. Furthermore, our approach achieves the state-of-the-art with 57.0%
top-1 accuracy on Something-Something V1.
- Abstract(参考訳): 周波数解析により、映像データ中の情報のリッチな表現を実現することができる。
移動領域の境界からの細かい動きの詳細は、時空間領域の高周波によって特徴づけられる。
一方、低い周波数は、かなりの冗長性を含む粗い情報を符号化し、入力された生のRGBフレームであるビデオモデルに低効率をもたらす。
本研究では,映像データの粗い情報から細粒度情報を分離するための移動帯域通過モジュール(MBPM)を提案する。
粗い情報を低解像度で表現することで,映像データ処理の効率を向上させることができる。
MBPMを双方向CNNアーキテクチャに埋め込むことで、FinCoarseネットワークを定義する。
2つの経路によって処理される特徴空間の冗長性を回避し、一方は低解像度データのダウンサンプリング特徴を、もう一方はmbpmが捉えた細粒度動き情報に基づいて、微細コアネットワークの効率を判定する。
The proposed FineCoarse network are many recent video processing model on Kinetics400, UCF101 and HMDB51。
さらに,本手法は,Something V1上で57.0%の精度で最先端を実現する。
関連論文リスト
- Binarized Low-light Raw Video Enhancement [49.65466843856074]
ディープニューラルネットワークは、低照度生ビデオの強化において優れたパフォーマンスを実現している。
本稿では,低照度生ビデオエンハンスメントに超コンパクトなバイナリニューラルネットワーク(BNN)を適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-03-29T02:55:07Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - CD-CTFM: A Lightweight CNN-Transformer Network for Remote Sensing Cloud
Detection Fusing Multiscale Features [5.600932842087808]
この問題を解決するために,CD-CTFMという軽量CNN-Transformerネットワークを提案する。
CD-CTFMはエンコーダ・デコーダアーキテクチャに基づいており、アテンション機構を組み込んでいる。
提案モデルは,38-CloudとMODISの2つのクラウドデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-12T15:37:18Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - MANet: Improving Video Denoising with a Multi-Alignment Network [72.93429911044903]
本稿では,複数フローの提案とアテンションに基づく平均化を行うマルチアライメントネットワークを提案する。
大規模ビデオデータセットを用いた実験により,本手法は調音ベースラインモデルを0.2dBで改善することを示した。
論文 参考訳(メタデータ) (2022-02-20T00:52:07Z) - Neural Residual Flow Fields for Efficient Video Representations [5.904082461511478]
入射神経表現(INR)は、画像、ビデオ、3D形状などの信号を表現するための強力なパラダイムとして登場した。
本稿では,データ冗長性を明示的に取り除き,ビデオの表現と圧縮を行う新しいINR手法を提案する。
本稿では,提案手法がベースライン法よりも有意差で優れていることを示す。
論文 参考訳(メタデータ) (2022-01-12T06:22:09Z) - Deep Recurrent Neural Network with Multi-scale Bi-directional
Propagation for Video Deblurring [36.94523101375519]
本稿では,RNN-MBP(Multiscale Bi-directional Propagation)を用いたディープリカレントニューラルネットワークを提案する。
提案したアルゴリズムと既存の最先端の手法を現実世界のぼやけたシーンでよりよく評価するために、リアルワールドのぼやけたビデオデータセットも作成する。
提案アルゴリズムは3つの典型的なベンチマークにおける最先端の手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-09T11:02:56Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。