論文の概要: Faster and Accurate Compressed Video Action Recognition Straight from
the Frequency Domain
- arxiv url: http://arxiv.org/abs/2012.13726v1
- Date: Sat, 26 Dec 2020 12:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:09:34.885831
- Title: Faster and Accurate Compressed Video Action Recognition Straight from
the Frequency Domain
- Title(参考訳): 周波数領域からの高速かつ高精度な圧縮映像行動認識
- Authors: Samuel Felipe dos Santos and Jurandy Almeida
- Abstract要約: 深層学習は、ビデオの中の人間の行動を認識するために強力で解釈可能な機能を学ぶのに成功している。
既存のディープラーニングアプローチのほとんどは、RGBイメージシーケンスとしてビデオ情報を処理するように設計されている。
本稿では,圧縮映像から直接学習可能な深層ニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 1.9214041945441434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition has become one of the most active field of research
in computer vision due to its wide range of applications, like surveillance,
medical, industrial environments, smart homes, among others. Recently, deep
learning has been successfully used to learn powerful and interpretable
features for recognizing human actions in videos. Most of the existing deep
learning approaches have been designed for processing video information as RGB
image sequences. For this reason, a preliminary decoding process is required,
since video data are often stored in a compressed format. However, a high
computational load and memory usage is demanded for decoding a video. To
overcome this problem, we propose a deep neural network capable of learning
straight from compressed video. Our approach was evaluated on two public
benchmarks, the UCF-101 and HMDB-51 datasets, demonstrating comparable
recognition performance to the state-of-the-art methods, with the advantage of
running up to 2 times faster in terms of inference speed.
- Abstract(参考訳): 人間の行動認識は、監視、医療、産業環境、スマートホームなど幅広い応用のために、コンピュータビジョンにおける最も活発な研究分野の1つになっている。
近年,ビデオ中の人間の行動を認識するための強力で解釈可能な特徴の習得にディープラーニングが成功している。
既存のディープラーニングアプローチのほとんどは、RGB画像シーケンスとしてビデオ情報を処理するために設計されている。
そのため、ビデオデータは圧縮フォーマットに格納されることが多いため、プリミティブな復号処理が必要となる。
しかし、ビデオのデコードには高い計算負荷とメモリ使用量が必要である。
そこで本研究では,圧縮映像から直接学習可能な深層ニューラルネットワークを提案する。
提案手法は,UCF-101およびHMDB-51データセットの2つの公開ベンチマークで評価され,予測速度の最大2倍の高速化が期待できる。
関連論文リスト
- Learned Scalable Video Coding For Humans and Machines [39.32955669909719]
本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能なビデオを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。
我々のフレームワークは、その基盤層において、最先端の学習と従来のビデオコーデックの両方を上回り、その拡張層では、人間の視覚タスクに匹敵する性能を維持している。
論文 参考訳(メタデータ) (2023-07-18T05:22:25Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - High Speed Human Action Recognition using a Photonic Reservoir Computer [1.7403133838762443]
我々は,「関心の時間」に基づく貯水池コンピュータの新しい訓練方法を提案する。
我々は,複数のビデオストリームをリアルタイムに処理できる点において,高い精度と速度でタスクを解く。
論文 参考訳(メタデータ) (2023-05-24T16:04:42Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Speeding Up Action Recognition Using Dynamic Accumulation of Residuals
in Compressed Domain [2.062593640149623]
ビデオ処理アルゴリズムに関して、時間的冗長性と生ビデオの重大性は、最も一般的な2つの問題である。
本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。
圧縮された領域に蓄積された残留物にのみニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと非常に競合する。
論文 参考訳(メタデータ) (2022-09-29T13:08:49Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Video Action Recognition Using spatio-temporal optical flow video frames [0.0]
ビデオにおける人間の行動の認識には多くの問題がある。
本稿では,Deep Neural Networksを用いたビデオ分類のための空間的および時間的パターン認識に注目する。
最終認識精度は約94%であった。
論文 参考訳(メタデータ) (2021-02-05T19:46:49Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。