論文の概要: Enabling ISP-less Low-Power Computer Vision
- arxiv url: http://arxiv.org/abs/2210.05451v1
- Date: Tue, 11 Oct 2022 13:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:23:03.295587
- Title: Enabling ISP-less Low-Power Computer Vision
- Title(参考訳): ISPレス低消費電力コンピュータビジョンの実現
- Authors: Gourav Datta, Zeyu Liu, Zihan Yin, Linyu Sun, Akhilesh R. Jaiswal,
Peter A. Beerel
- Abstract要約: 汎用的な高レベル視覚タスクのための大規模ベンチマークの生版をリリースする。
ISPなしのCVシステムでは、生画像のトレーニングにより、テスト精度が7.1%向上する。
そこで本研究では,画素内CNN計算と組み合わせた,エネルギー効率のよいアナログインピクセル復号法を提案する。
- 参考スコア(独自算出の注目度): 4.102254385058941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to deploy current computer vision (CV) models on
resource-constrained low-power devices, recent works have proposed in-sensor
and in-pixel computing approaches that try to partly/fully bypass the image
signal processor (ISP) and yield significant bandwidth reduction between the
image sensor and the CV processing unit by downsampling the activation maps in
the initial convolutional neural network (CNN) layers. However, direct
inference on the raw images degrades the test accuracy due to the difference in
covariance of the raw images captured by the image sensors compared to the
ISP-processed images used for training. Moreover, it is difficult to train deep
CV models on raw images, because most (if not all) large-scale open-source
datasets consist of RGB images. To mitigate this concern, we propose to invert
the ISP pipeline, which can convert the RGB images of any dataset to its raw
counterparts, and enable model training on raw images. We release the raw
version of the COCO dataset, a large-scale benchmark for generic high-level
vision tasks. For ISP-less CV systems, training on these raw images result in a
7.1% increase in test accuracy on the visual wake works (VWW) dataset compared
to relying on training with traditional ISP-processed RGB datasets. To further
improve the accuracy of ISP-less CV models and to increase the energy and
bandwidth benefits obtained by in-sensor/in-pixel computing, we propose an
energy-efficient form of analog in-pixel demosaicing that may be coupled with
in-pixel CNN computations. When evaluated on raw images captured by real
sensors from the PASCALRAW dataset, our approach results in a 8.1% increase in
mAP. Lastly, we demonstrate a further 20.5% increase in mAP by using a novel
application of few-shot learning with thirty shots each for the novel PASCALRAW
dataset, constituting 3 classes.
- Abstract(参考訳): 資源制約された低消費電力デバイスに現在のコンピュータビジョン(CV)モデルをデプロイするために、最近の研究は、画像信号プロセッサ(ISP)を部分的にかつ確実にバイパスし、初期畳み込みニューラルネットワーク(CNN)層で活性化マップをダウンサンプリングすることで、画像センサとCV処理ユニット間の帯域幅を大幅に削減する、インセンサーおよびインピクセルコンピューティングアプローチを提案している。
しかし, 実画像の直接推測は, トレーニングに用いるISP処理画像と比較して, 画像センサが捉えた原画像の共分散の違いにより, テスト精度を低下させる。
さらに,大規模なオープンソースデータセットのほとんどがRGBイメージで構成されているため,生画像上での深部CVモデルのトレーニングも困難である。
この懸念を軽減するために,任意のデータセットのRGBイメージを生画像に変換し,生画像のモデルトレーニングを可能にするISPパイプラインの逆変換を提案する。
汎用的な高レベルビジョンタスクのための大規模ベンチマークであるcocoデータセットの生バージョンをリリースします。
ISPなしCVシステムでは、これらの生画像のトレーニングは、従来のISP処理されたRGBデータセットのトレーニングに依存するよりも、視覚覚醒作業(VWW)データセットのテスト精度が7.1%向上する。
ISPレスCVモデルの精度をさらに向上し、インセンサー/インピクセルコンピューティングによって得られるエネルギーと帯域幅の利点を向上させるために、インピクセルCNN計算と組み合わせて得られるエネルギー効率の良いアナログインピクセル復号法を提案する。
PASCALRAWデータセットから実センサで取得した生画像を用いて評価した結果,mAPは8.1%増加した。
最後に,3つのクラスからなる新しいPASCALRAWデータセットに対して,30ショットずつの複数ショット学習を新規に適用することにより,さらに20.5%のmAP増加を示す。
関連論文リスト
- Dual-Scale Transformer for Large-Scale Single-Pixel Imaging [11.064806978728457]
本研究では,HATNet と呼ばれる Kronecker SPI モデル上でのハイブリッドアテンショントランスフォーマを用いた深部展開ネットワークを提案し,実際の SPI カメラの画質向上を図る。
勾配降下モジュールはベクトル化されたSPIに基づいて、以前の勾配降下モジュールに根付いた高い計算オーバーヘッドを回避することができる。
このデノナイジングモジュールは,高周波・低周波アグリゲーションのための2次元空間アグリゲーションと,グローバル情報再構成のためのチャネルアグリゲーションを利用したエンコーダデコーダアーキテクチャである。
論文 参考訳(メタデータ) (2024-04-07T15:53:21Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - Reversed Image Signal Processing and RAW Reconstruction. AIM 2022
Challenge Report [109.2135194765743]
本稿では,AIM 2022 Challenge on Reversed Image Signal Processing and RAW Reconstructionを紹介する。
我々は,メタデータを使わずにRGBから生のセンサイメージを回収し,ISP変換を「逆」することを目的としている。
論文 参考訳(メタデータ) (2022-10-20T10:43:53Z) - LW-ISP: A Lightweight Model with ISP and Deep Learning [17.972611191715888]
ISPパイプラインにおけるリアルタイム高速処理を実現するための学習ベース手法の可能性を示す。
RAWデータからRGB画像へのイメージマッピングを暗黙的に学習する新しいアーキテクチャであるLW-ISPを提案する。
実験により、LW-ISPはPSNRの0.38dB改善を達成した。
論文 参考訳(メタデータ) (2022-10-08T04:00:03Z) - GenISP: Neural ISP for Low-Light Machine Cognition [19.444297600977546]
低照度環境では、原画像データを用いた物体検出器は、ISPパイプラインで処理された画像データを用いた検出器よりも堅牢である。
我々は、デバイスに依存しないカラー空間にカラー空間変換を明示的に組み込んだ、マシン認知のための最小限のニューラルISPパイプラインGenISPを提案する。
論文 参考訳(メタデータ) (2022-05-07T17:17:24Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Toward Efficient Hyperspectral Image Processing inside Camera Pixels [1.6449390849183356]
ハイパースペクトルカメラは、数百のスペクトル帯が存在するため、大量のデータを生成する。
この問題を軽減するために,PIP (Processing-in-Pixel) 形式を提案する。
我々のPIP最適化カスタムCNN層は、入力データを効果的に圧縮し、データをHSI処理ユニットに送信するために必要な帯域幅を大幅に削減する。
論文 参考訳(メタデータ) (2022-03-11T01:06:02Z) - Model-Based Image Signal Processors via Learnable Dictionaries [6.766416093990318]
デジタルカメラは画像信号処理装置(ISP)を用いてRAW読み出しをRGB画像に変換する
近年のアプローチでは、RGBからRAWマッピングを推定することで、このギャップを埋めようとしている。
本稿では,学習可能かつ解釈可能なハイブリッド・モデルベースかつデータ駆動型ISPを提案する。
論文 参考訳(メタデータ) (2022-01-10T08:36:10Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。