論文の概要: Leveraging Motion Estimation for Efficient Bayer-Domain Computer Vision
- arxiv url: http://arxiv.org/abs/2501.15119v2
- Date: Thu, 14 Aug 2025 02:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:22.943684
- Title: Leveraging Motion Estimation for Efficient Bayer-Domain Computer Vision
- Title(参考訳): 効率的なバイエルドメインコンピュータビジョンのためのレバレッジ動作推定法
- Authors: Haichao Wang, Xinyue Xi, Jiangtao Wen, Yuxing Han,
- Abstract要約: 既存のコンピュータビジョン処理パイプラインは、バイエルパターンの画素情報をキャプチャする画像センサを用いて視覚情報を取得する。
次に、まずバイヤー画素データを画素ベースでRGBに変換し、次いでフレームベースでビデオ畳み込みネットワーク(VCN)処理を行う画像信号処理装置(ISP)を用いて生センサデータを処理する。
本稿では,ISPを排除し,モーション推定を利用してバイエル領域の映像ビジョンタスクを直接高速化する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.940116042097847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing computer vision processing pipeline acquires visual information using an image sensor that captures pixel information in the Bayer pattern. The raw sensor data are then processed using an image signal processor (ISP) that first converts Bayer pixel data to RGB on a pixel by pixel basis, followed by video convolutional network (VCN) processing on a frame by frame basis. Both ISP and VCN are computationally expensive with high power consumption and latency. In this paper, we propose a novel framework that eliminates the ISP and leverages motion estimation to accelerate video vision tasks directly in the Bayer domain. We introduce Motion Estimation-based Video Convolution (MEVC), which integrates sliding-window motion estimation into each convolutional layer, enabling prediction and residual-based refinement that reduces redundant computations across frames. This design bridges the structural gap between block-based motion estimation and spatial convolution, enabling accurate, low-cost processing. Our end-to-end pipeline supports raw Bayer input and achieves over 70\% reduction in FLOPs with minimal accuracy degradation across video semantic segmentation, depth estimation, and object detection benchmarks, using both synthetic Bayer-converted and real Bayer video datasets. This framework generalizes across convolution-based models and marks the first effective reuse of motion estimation for accelerating video computer vision directly from raw sensor data.
- Abstract(参考訳): 既存のコンピュータビジョン処理パイプラインは、バイエルパターンの画素情報をキャプチャする画像センサを用いて視覚情報を取得する。
次に、まずバイヤー画素データを画素ベースでRGBに変換し、次いでフレームベースでビデオ畳み込みネットワーク(VCN)処理を行う画像信号処理装置(ISP)を用いて生センサデータを処理する。
ISPもVCNも計算コストが高く、消費電力もレイテンシも高い。
本稿では,ISPを排除し,モーション推定を利用してバイエル領域の映像ビジョンタスクを直接高速化する新しいフレームワークを提案する。
本稿では,各畳み込み層にスライディング・ウインドウ・モーション推定を統合し,フレーム間の冗長な計算を低減した残差補正と予測を可能にする動き推定に基づくビデオ・コンボリューション(MEVC)を提案する。
この設計はブロックベースの動き推定と空間畳み込みの間の構造的ギャップを埋め、正確で低コストな処理を可能にする。
我々のエンドツーエンドパイプラインは、生のBaier入力をサポートし、合成Baier変換と実Baierビデオデータセットの両方を用いて、ビデオセマンティックセグメンテーション、深さ推定、オブジェクト検出ベンチマークにおいて、FLOPの70%以上を最小限の精度で削減する。
このフレームワークは、畳み込みモデルにまたがって一般化され、生のセンサデータから直接ビデオコンピュータビジョンを加速するために、モーション推定を効果的に再利用する最初の方法となった。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - RN-Net: Reservoir Nodes-Enabled Neuromorphic Vision Sensing Network [7.112892720740359]
イベントベースのカメラは、生物学的視覚系のスパイクと非同期スパイク表現にインスパイアされている。
本稿では,局所的および大域的貯水池の動的時間エンコーディングと統合された単純な畳み込み層に基づくニューラルネットワークアーキテクチャを提案する。
RN-Netはこれまでに報告されたDV128 Gestureの99.2%の最高精度を達成しており、DVS Lipデータセットの67.5%の最高精度の1つである。
論文 参考訳(メタデータ) (2023-03-19T21:20:45Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Signal Processing for Implicit Neural Representations [80.38097216996164]
Inlicit Neural Representation (INR)は、マルチ層パーセプトロンを介して連続したマルチメディアデータを符号化する。
既存の作業は、その離散化されたインスタンスの処理を通じて、そのような連続的な表現を操作する。
本稿では,INSP-Netと呼ばれる暗黙的ニューラル信号処理ネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-17T06:29:07Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - RF-Photonic Deep Learning Processor with Shannon-Limited Data Movement [0.0]
光ニューラルネットワーク(ONN)は、超低レイテンシとエネルギー消費を持つ有望な加速器である。
我々は、周波数領域のデータを符号化する乗法的アナログ周波数変換ONN(MAFT-ONN)を導入する。
我々は、生のRF信号で完全にアナログのディープラーニングを演算する最初のハードウェアアクセラレータを実験的に実証した。
論文 参考訳(メタデータ) (2022-07-08T16:37:13Z) - Highly-Efficient Binary Neural Networks for Visual Place Recognition [24.674034243725455]
VPRは、既知の位置が検出された場合にロボットが作業空間に自分自身をローカライズできるようにするため、自律ナビゲーションの基本的なタスクである。
CNNベースの技術は最先端のVPR性能をアーカイブするが、計算集約的でエネルギー需要が高い。
本稿では,第1の畳み込み層を置き換えるために,深く分離可能な因子分解とバイナライゼーションを組み合わせたVPR用BNNのクラスを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:05:11Z) - Neural Residual Flow Fields for Efficient Video Representations [5.904082461511478]
入射神経表現(INR)は、画像、ビデオ、3D形状などの信号を表現するための強力なパラダイムとして登場した。
本稿では,データ冗長性を明示的に取り除き,ビデオの表現と圧縮を行う新しいINR手法を提案する。
本稿では,提案手法がベースライン法よりも有意差で優れていることを示す。
論文 参考訳(メタデータ) (2022-01-12T06:22:09Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - VideoPose: Estimating 6D object pose from videos [14.210010379733017]
我々は、畳み込みニューラルネットワークを用いて、ビデオから直接オブジェクトのポーズを推定する、単純だが効果的なアルゴリズムを導入する。
提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、リカレントニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。
YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:57:45Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。