論文の概要: Irrelevant Pixels are Everywhere: Find and Exclude Them for More
Efficient Computer Vision
- arxiv url: http://arxiv.org/abs/2207.10741v1
- Date: Thu, 21 Jul 2022 20:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:57:30.720461
- Title: Irrelevant Pixels are Everywhere: Find and Exclude Them for More
Efficient Computer Vision
- Title(参考訳): より効率的なコンピュータビジョンのためのテーマを見つけ出し、排除するスマホ
- Authors: Caleb Tung, Abhinav Goel, Xiao Hu, Nicholas Eliopoulos, Emmanuel
Amobi, George K. Thiruvathukal, Vipin Chaudhary and Yung-Hsiang Lu
- Abstract要約: CNNは、入力画像のすべてのピクセル上の多くの特徴を無差別に計算するため、計算集約的である。
計算とエネルギーを節約するために,CNNを関連するピクセルのみで動作するように修正する。
組込み装置では精度の低下は見られず, 推論遅延, エネルギー消費, 乗算加算数はすべて約45%削減される。
- 参考スコア(独自算出の注目度): 2.982495984260401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision is often performed using Convolutional Neural Networks
(CNNs). CNNs are compute-intensive and challenging to deploy on
power-contrained systems such as mobile and Internet-of-Things (IoT) devices.
CNNs are compute-intensive because they indiscriminately compute many features
on all pixels of the input image. We observe that, given a computer vision
task, images often contain pixels that are irrelevant to the task. For example,
if the task is looking for cars, pixels in the sky are not very useful.
Therefore, we propose that a CNN be modified to only operate on relevant pixels
to save computation and energy. We propose a method to study three popular
computer vision datasets, finding that 48% of pixels are irrelevant. We also
propose the focused convolution to modify a CNN's convolutional layers to
reject the pixels that are marked irrelevant. On an embedded device, we observe
no loss in accuracy, while inference latency, energy consumption, and
multiply-add count are all reduced by about 45%.
- Abstract(参考訳): コンピュータビジョンは畳み込みニューラルネットワーク(CNN)を用いて行われることが多い。
CNNは計算集約的で、モバイルやIoT(Internet-of-Things)デバイスのような、電力制約のあるシステムにデプロイするのは難しい。
CNNは、入力画像のすべてのピクセル上の多くの特徴を区別なく計算するため、計算集約的である。
コンピュータビジョンタスクの場合、画像にはそのタスクとは無関係なピクセルがしばしば含まれている。
例えば、タスクが車を探している場合、空のピクセルはあまり役に立たない。
そこで本研究では,CNNを関連するピクセルのみで動作するように修正し,計算とエネルギーを節約することを提案する。
本研究では,3つの一般的なコンピュータビジョンデータセットを調査し,48%の画素が無関係であることを示す。
また,cnnの畳み込み層を変更し,無関係とマークされた画素を拒絶する集中畳み込みを提案する。
組込み装置では精度の低下は見られず, 推論遅延, エネルギー消費, 乗算加算数はすべて約45%削減される。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - An automated approach for improving the inference latency and energy
efficiency of pretrained CNNs by removing irrelevant pixels with focused
convolutions [0.8706730566331037]
本稿では,事前学習したCNNを再学習せずによりエネルギー効率良くするための,新しい自動化手法を提案する。
修正された集中畳み込み操作は、様々なトレーニング済みCNNにおいて、推論遅延(25%まで)とエネルギーコスト(最大22%まで)を節約します。
論文 参考訳(メタデータ) (2023-10-11T18:07:37Z) - Compressing CNN Kernels for Videos Using Tucker Decompositions: Towards
Lightweight CNN Applications [2.191505742658975]
畳み込みニューラルネットワーク(CNN)は、ビジュアルコンピューティングの分野における最先端技術である。
CNNの大きな問題は、大量の浮動小数点演算(FLOP)が大きな入力に対して畳み込みを行うのに必要なものである。
本稿では,画像のための事前学習ネットワークの畳み込みカーネルを圧縮するタッカー分解法を提案する。
論文 参考訳(メタデータ) (2022-03-10T11:53:53Z) - SIN:Superpixel Interpolation Network [9.046310874823002]
従来のアルゴリズムとディープラーニングベースのアルゴリズムは、スーパーピクセルセグメンテーションにおける2つの主要なストリームである。
本稿では,エンド・ツー・エンド方式で下流タスクと統合可能な深層学習に基づくスーパーピクセルセグメンテーションアルゴリズムSINを提案する。
論文 参考訳(メタデータ) (2021-10-17T02:21:11Z) - Dead Pixel Test Using Effective Receptive Field [4.682689635018936]
畳み込みニューラルネットワーク(CNN)の2つの逆直観的挙動について論じる。
受信フィールドのサイズを評価し,出力に寄与する画素について検討する。
出力にはほとんど寄与しない部分的なデッド状態にピクセルが存在することがわかった。
論文 参考訳(メタデータ) (2021-08-31T01:42:47Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - RingCNN: Exploiting Algebraically-Sparse Ring Tensors for
Energy-Efficient CNN-Based Computational Imaging [22.19410414823529]
畳み込みニューラルネットワーク(cnns)は、計算イメージングの強力な技術として登場している。
CNNは、高解像度ビデオを生成するための集中的なコンピューティングパワーを要求し、高密度のディテールをレンダリングする際に従来のスパーシティ技術に反します。
本論文では、エネルギー効率の高いCNN加速のための基本的だが十分に研究されたアプローチ - 代数的スパーシティ -- を検討する。
論文 参考訳(メタデータ) (2021-04-19T05:26:11Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。