論文の概要: Efficient Video Neural Network Processing Based on Motion Estimation
- arxiv url: http://arxiv.org/abs/2501.15119v1
- Date: Sat, 25 Jan 2025 08:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:54:55.939467
- Title: Efficient Video Neural Network Processing Based on Motion Estimation
- Title(参考訳): 動き推定に基づく効率的なビデオニューラルネットワーク処理
- Authors: Haichao Wang, Jiangtao Wen, Yuxing Han,
- Abstract要約: 本稿では,効率的なビデオニューラルネットワーク(VNN)処理フレームワークを提案する。
画像信号処理(ISP)の代わりに、コンピュータビジョンタスクはBaierパターン情報を用いて直接実行される。
実験では、コンピュータビジョンタスクの精度を維持しながら、67%以上の計算量を削減した。
- 参考スコア(独自算出の注目度): 14.136147164393737
- License:
- Abstract: Video neural network (VNN) processing using the conventional pipeline first converts Bayer video information into human understandable RGB videos using image signal processing (ISP) on a pixel by pixel basis. Then, VNN processing is performed on a frame by frame basis. Both ISP and VNN are computationally expensive with high power consumption and latency. In this paper, we propose an efficient VNN processing framework. Instead of using ISP, computer vision tasks are directly accomplished using Bayer pattern information. To accelerate VNN processing, motion estimation is introduced to find temporal redundancies in input video data so as to avoid repeated and unnecessary computations. Experiments show greater than 67\% computation reduction, while maintaining computer vision task accuracy for typical computer vision tasks and data sets.
- Abstract(参考訳): 従来のパイプラインを用いたビデオニューラルネットワーク(VNN)処理では,まず,画素単位で画像信号処理(ISP)を用いてバイエル映像情報を人間の理解可能なRGBビデオに変換する。
そして、フレームベースでVNN処理を行う。
ISPもVNNも計算コストが高く、消費電力もレイテンシも高い。
本稿では,効率的なVNN処理フレームワークを提案する。
ISPの代わりに、コンピュータビジョンタスクはBaierパターン情報を使って直接実行される。
VNN処理を高速化するために、入力されたビデオデータに時間的冗長性を見つけるために動き推定を導入し、繰り返し計算や不要な計算を避ける。
実験では、コンピュータビジョンタスクの精度を典型的なコンピュータビジョンタスクやデータセットに保ちながら、67 %以上の計算量の削減を示す。
関連論文リスト
- RN-Net: Reservoir Nodes-Enabled Neuromorphic Vision Sensing Network [7.112892720740359]
イベントベースのカメラは、生物学的視覚系のスパイクと非同期スパイク表現にインスパイアされている。
本稿では,局所的および大域的貯水池の動的時間エンコーディングと統合された単純な畳み込み層に基づくニューラルネットワークアーキテクチャを提案する。
RN-Netはこれまでに報告されたDV128 Gestureの99.2%の最高精度を達成しており、DVS Lipデータセットの67.5%の最高精度の1つである。
論文 参考訳(メタデータ) (2023-03-19T21:20:45Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Signal Processing for Implicit Neural Representations [80.38097216996164]
Inlicit Neural Representation (INR)は、マルチ層パーセプトロンを介して連続したマルチメディアデータを符号化する。
既存の作業は、その離散化されたインスタンスの処理を通じて、そのような連続的な表現を操作する。
本稿では,INSP-Netと呼ばれる暗黙的ニューラル信号処理ネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-17T06:29:07Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Highly-Efficient Binary Neural Networks for Visual Place Recognition [24.674034243725455]
VPRは、既知の位置が検出された場合にロボットが作業空間に自分自身をローカライズできるようにするため、自律ナビゲーションの基本的なタスクである。
CNNベースの技術は最先端のVPR性能をアーカイブするが、計算集約的でエネルギー需要が高い。
本稿では,第1の畳み込み層を置き換えるために,深く分離可能な因子分解とバイナライゼーションを組み合わせたVPR用BNNのクラスを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:05:11Z) - Neural Residual Flow Fields for Efficient Video Representations [5.904082461511478]
入射神経表現(INR)は、画像、ビデオ、3D形状などの信号を表現するための強力なパラダイムとして登場した。
本稿では,データ冗長性を明示的に取り除き,ビデオの表現と圧縮を行う新しいINR手法を提案する。
本稿では,提案手法がベースライン法よりも有意差で優れていることを示す。
論文 参考訳(メタデータ) (2022-01-12T06:22:09Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - VideoPose: Estimating 6D object pose from videos [14.210010379733017]
我々は、畳み込みニューラルネットワークを用いて、ビデオから直接オブジェクトのポーズを推定する、単純だが効果的なアルゴリズムを導入する。
提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、リカレントニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。
YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:57:45Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。