論文の概要: Speeding Up Action Recognition Using Dynamic Accumulation of Residuals
in Compressed Domain
- arxiv url: http://arxiv.org/abs/2209.14757v1
- Date: Thu, 29 Sep 2022 13:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:20:25.942489
- Title: Speeding Up Action Recognition Using Dynamic Accumulation of Residuals
in Compressed Domain
- Title(参考訳): 圧縮領域における残差の動的蓄積を用いた行動認識の高速化
- Authors: Ali Abdari, Pouria Amirjan, Azadeh Mansouri
- Abstract要約: ビデオ処理アルゴリズムに関して、時間的冗長性と生ビデオの重大性は、最も一般的な2つの問題である。
本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。
圧縮された領域に蓄積された残留物にのみニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと非常に競合する。
- 参考スコア(独自算出の注目度): 2.062593640149623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread use of installed cameras, video-based monitoring
approaches have seized considerable attention for different purposes like
assisted living. Temporal redundancy and the sheer size of raw videos are the
two most common problematic issues related to video processing algorithms. Most
of the existing methods mainly focused on increasing accuracy by exploring
consecutive frames, which is laborious and cannot be considered for real-time
applications. Since videos are mostly stored and transmitted in compressed
format, these kinds of videos are available on many devices. Compressed videos
contain a multitude of beneficial information, such as motion vectors and
quantized coefficients. Proper use of this available information can greatly
improve the video understanding methods' performance. This paper presents an
approach for using residual data, available in compressed videos directly,
which can be obtained by a light partially decoding procedure. In addition, a
method for accumulating similar residuals is proposed, which dramatically
reduces the number of processed frames for action recognition. Applying neural
networks exclusively for accumulated residuals in the compressed domain
accelerates performance, while the classification results are highly
competitive with raw video approaches.
- Abstract(参考訳): カメラの普及に伴い、ビデオベースの監視アプローチは、生活支援など様々な目的のためにかなりの注目を集めている。
時間的冗長性と生の動画のサイズは、ビデオ処理アルゴリズムに関連する2つの最も一般的な問題である。
既存の手法の多くは、連続したフレームを探索することで精度を高めることに重点を置いており、これは手間がかかり、リアルタイムアプリケーションでは考慮できない。
ビデオは主に圧縮フォーマットで保存され送信されるため、この種のビデオは多くのデバイスで利用可能である。
圧縮ビデオには、運動ベクトルや量子化係数などの有益な情報が多数含まれている。
この情報を適切に利用することで、ビデオ理解手法の性能を大幅に向上させることができる。
本稿では,光部分復号処理によって得られる圧縮ビデオで直接利用できる残差データの利用法を提案する。
さらに, 類似残差を蓄積する手法を提案し, 動作認識のための処理フレーム数を劇的に削減した。
圧縮領域に蓄積された残差のみにニューラルネットワークを適用することで、性能が向上する一方、分類結果は生のビデオアプローチと高い競争力を持つ。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Blurry Video Compression: A Trade-off between Visual Enhancement and
Data Compression [65.8148169700705]
既存のビデオ圧縮(VC)手法は主に、ビデオ内の連続フレーム間の空間的および時間的冗長性を減らすことを目的としている。
これまでの研究は、インスタント(既知の)露光時間やシャッタースピードなどの特定の設定で取得されたビデオに対して、顕著な成果を上げてきた。
本研究では,シーン内のカメラ設定やダイナミックスによって,所定の映像がぼやけてしまうという一般的なシナリオにおいて,VCの問題に取り組む。
論文 参考訳(メタデータ) (2023-11-08T02:17:54Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - A Detection Method of Temporally Operated Videos Using Robust Hashing [12.27887776401573]
従来のビデオや画像の改ざん検出方法は、そのような操作に対して十分に堅牢ではない。
そこで本研究では,ビデオに解像度と圧縮を適用した場合でも,時間的に操作されたビデオを検出する頑健なハッシュアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T07:36:07Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - Faster and Accurate Compressed Video Action Recognition Straight from
the Frequency Domain [1.9214041945441434]
深層学習は、ビデオの中の人間の行動を認識するために強力で解釈可能な機能を学ぶのに成功している。
既存のディープラーニングアプローチのほとんどは、RGBイメージシーケンスとしてビデオ情報を処理するように設計されている。
本稿では,圧縮映像から直接学習可能な深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-26T12:43:53Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。