論文の概要: Vehicle Detection and Classification without Residual Calculation:
Accelerating HEVC Image Decoding with Random Perturbation Injection
- arxiv url: http://arxiv.org/abs/2305.08265v3
- Date: Sat, 5 Aug 2023 12:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 22:50:55.536775
- Title: Vehicle Detection and Classification without Residual Calculation:
Accelerating HEVC Image Decoding with Random Perturbation Injection
- Title(参考訳): 残差計算のない車両検出と分類:ランダム摂動注入によるHEVC画像デコーディングの高速化
- Authors: Muhammet Sebul Berato\u{g}lu and Beh\c{c}et U\u{g}ur T\"oreyin
- Abstract要約: 本研究では,HEVCビットストリームからの画像を再構成するランダム摂動に基づく圧縮領域法を提案する。
従来の完全復号化手法と比較して,復元速度が大幅に向上したことを示す。
検出精度は画素領域法に匹敵する99.9%,分類精度96.84%,画素領域法に匹敵する0.98%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the field of video analytics, particularly traffic surveillance, there is
a growing need for efficient and effective methods for processing and
understanding video data. Traditional full video decoding techniques can be
computationally intensive and time-consuming, leading researchers to explore
alternative approaches in the compressed domain. This study introduces a novel
random perturbation-based compressed domain method for reconstructing images
from High Efficiency Video Coding (HEVC) bitstreams, specifically designed for
traffic surveillance applications. To the best of our knowledge, our method is
the first to propose substituting random perturbations for residual values,
creating a condensed representation of the original image while retaining
information relevant to video understanding tasks, particularly focusing on
vehicle detection and classification as key use cases.
By not using residual data, our proposed method significantly reduces the
data needed in the image reconstruction process, allowing for more efficient
storage and transmission of information. This is particularly important when
considering the vast amount of video data involved in surveillance
applications. Applied to the public BIT-Vehicle dataset, we demonstrate a
significant increase in the reconstruction speed compared to the traditional
full decoding approach, with our proposed method being approximately 56% faster
than the pixel domain method. Additionally, we achieve a detection accuracy of
99.9%, on par with the pixel domain method, and a classification accuracy of
96.84%, only 0.98% lower than the pixel domain method. Furthermore, we showcase
the significant reduction in data size, leading to more efficient storage and
transmission. Our research establishes the potential of compressed domain
methods in traffic surveillance applications, where speed and data size are
critical factors.
- Abstract(参考訳): ビデオ分析,特に交通監視の分野では,映像データの処理と理解のための効率的かつ効果的な手法の必要性が高まっている。
従来のフルビデオデコーディング技術は計算集約的で時間を要するため、研究者は圧縮された領域における代替アプローチを探求する。
本研究では,高効率ビデオ符号化(HEVC)ビットストリームから画像を再構成する,ランダム摂動に基づく圧縮領域法を提案する。
本手法は,映像理解タスクに関連する情報を保持しつつ,特に車両の検知・分類を重要なユースケースとして重視しながら,元の画像の凝縮表現を作成し,残差に対するランダムな摂動の置換を提案する最初の方法である。
残差データを使用しないことにより,提案手法は画像再構成プロセスに必要なデータを大幅に削減し,より効率的な情報保存と送信を可能にする。
これは、監視アプリケーションに関わる膨大なビデオデータを考える際に特に重要である。
提案手法は,一般のビットベクトルデータセットに適用することで,従来のフルデコード法に比べて復元速度が著しく向上し,画素領域法よりも約56%高速であることを示す。
さらに,画素領域法と比較して検出精度が99.9%,分類精度96.84%であり,画素領域法よりわずか0.98%低い。
さらに,データサイズが大幅に削減され,ストレージや送信の効率が向上することを示す。
本研究は、速度とデータサイズが重要な要因である交通監視アプリケーションにおいて、圧縮されたドメインメソッドの可能性を立証する。
関連論文リスト
- Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Secure Information Embedding in Images with Hybrid Firefly Algorithm [2.9182357325967145]
本研究は,ホストイメージ内に機密文書フォーマット(PDF)を隠蔽する新たなステガノグラフィ手法を提案する。
この探索の目的は、ホスト画像のキャパシティを増大させ、歪みを減少させる2つの主要な目標を達成することである。
その結果,画像の歪みの減少と探索過程における収束速度の加速が示唆された。
論文 参考訳(メタデータ) (2023-12-21T01:50:02Z) - A Preliminary Study on Pattern Reconstruction for Optimal Storage of
Wearable Sensor Data [3.04585143845864]
医療データを効率的に保存するための1つのアプローチは、関連する特徴と代表的特徴を抽出し、連続的なストリーミングデータではなく、それらの特徴のみを保存することである。
本稿では,人間の行動認識(HAR)センサデータに対する簡潔な特徴抽出と再構成のための複数のオートエンコーダについて予備的検討を行った。
我々のMulti-Layer Perceptron(MLP)ディープオートエンコーダは,他の3つの実装オートエンコーダと比較して90.18%のストレージ削減を達成した。
論文 参考訳(メタデータ) (2023-02-25T03:33:26Z) - Rethinking Resolution in the Context of Efficient Video Recognition [49.957690643214576]
クロスレゾリューションKD(ResKD)は、低解像度フレームでの認識精度を高めるための単純だが効果的な方法である。
我々は,最先端アーキテクチャ,すなわち3D-CNNとビデオトランスフォーマーに対して,その効果を広く示す。
論文 参考訳(メタデータ) (2022-09-26T15:50:44Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - FasterVideo: Efficient Online Joint Object Detection And Tracking [0.8680676599607126]
我々は、画像オブジェクト検出において最も成功した方法の一つである、Faster R-CNNを再考し、それをビデオ領域に拡張する。
提案手法は,関連アプリケーションに必要な計算効率が非常に高い。
論文 参考訳(メタデータ) (2022-04-15T09:25:34Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - Superpixels and Graph Convolutional Neural Networks for Efficient
Detection of Nutrient Deficiency Stress from Aerial Imagery [3.6843744304889183]
リモートセンシングデータから栄養不足地域を特定し、注意が必要な地域へ農家に警告します。
ノードベースの分類を行うために,より軽量なグラフベースの手法を提案する。
このモデルは、cnnモデルよりも4桁少ないパラメータを持ち、数分で列車が走る。
論文 参考訳(メタデータ) (2021-04-20T21:18:16Z) - A Novel Upsampling and Context Convolution for Image Semantic
Segmentation [0.966840768820136]
最近のセマンティックセグメンテーションの方法は、しばしば深い畳み込みニューラルネットワークを用いたエンコーダデコーダ構造を採用している。
ネットワーク内の画像の空間情報を効率的に保存するために,ガイドフィルタに基づく高密度アップサンプリング畳み込み法を提案する。
ADE20KとPascal-Contextのベンチマークデータセットでは,それぞれ82.86%,81.62%の画素精度を記録した。
論文 参考訳(メタデータ) (2021-03-20T06:16:42Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。