論文の概要: Algorithm-hardware Co-design for Deformable Convolution
- arxiv url: http://arxiv.org/abs/2002.08357v1
- Date: Wed, 19 Feb 2020 01:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 14:31:02.313594
- Title: Algorithm-hardware Co-design for Deformable Convolution
- Title(参考訳): 変形可能な畳み込みのためのアルゴリズムハードウェア共設計
- Authors: Qijing Huang, Dequan Wang, Yizhao Gao, Yaohui Cai, Zhen Dong, Bichen
Wu, Kurt Keutzer, John Wawrzynek
- Abstract要約: 我々は、変形可能な畳み込みを改良した効率的な物体検出ネットワークを構築し、最先端の量子化手法を用いてネットワークを定量化する。
予備実験では、変形可能な畳み込みに対する設計最適化により、ほとんど精度が損なわれず、高速化が達成できることが示されている。
- 参考スコア(独自算出の注目度): 40.50544352625659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: FPGAs provide a flexible and efficient platform to accelerate
rapidly-changing algorithms for computer vision. The majority of existing work
focuses on accelerating image classification, while other fundamental vision
problems, including object detection and instance segmentation, have not been
adequately addressed. Compared with image classification, detection problems
are more sensitive to the spatial variance of objects, and therefore, require
specialized convolutions to aggregate spatial information. To address this,
recent work proposes dynamic deformable convolution to augment regular
convolutions. Regular convolutions process a fixed grid of pixels across all
the spatial locations in an image, while dynamic deformable convolutions may
access arbitrary pixels in the image and the access pattern is input-dependent
and varies per spatial location. These properties lead to inefficient memory
accesses of inputs with existing hardware. In this work, we first investigate
the overhead of the deformable convolution on embedded FPGA SoCs, and then show
the accuracy-latency tradeoffs for a set of algorithm modifications including
full versus depthwise, fixed-shape, and limited-range. These modifications
benefit the energy efficiency for embedded devices in general as they reduce
the compute complexity. We then build an efficient object detection network
with modified deformable convolutions and quantize the network using
state-of-the-art quantization methods. We implement a unified hardware engine
on FPGA to support all the operations in the network. Preliminary experiments
show that little accuracy is compromised and speedup can be achieved with our
co-design optimization for the deformable convolution.
- Abstract(参考訳): FPGAは、コンピュータビジョンのための高速に変化するアルゴリズムを加速するための柔軟で効率的なプラットフォームを提供する。
既存の研究の大部分は画像分類の高速化に重点を置いているが、オブジェクト検出やインスタンスのセグメンテーションを含む他の基本的な視覚問題は十分に解決されていない。
画像分類と比較すると、検出問題は物体の空間的ばらつきに敏感であり、そのため空間情報を集約するために特別な畳み込みが必要となる。
これに対処するために、近年の研究では、通常の畳み込みを補強するために動的変形可能な畳み込みを提案する。
通常の畳み込みは画像内のすべての空間的位置をまたいだ固定されたピクセルのグリッドを処理するが、動的に変形可能な畳み込みは画像内の任意のピクセルにアクセスでき、アクセスパターンは入力に依存し、空間的位置ごとに変化する。
これらの特性は、既存のハードウェアによる入力の非効率なメモリアクセスにつながる。
本研究ではまず, FPGA SoCの変形可能な畳み込みのオーバーヘッドについて検討し, そして, 完全かつ深度的に, 固定形状, 限定範囲を含むアルゴリズム修正の精度・レイテンシのトレードオフを示す。
これらの修正は、一般に計算複雑性を減らすため、組み込み機器のエネルギー効率を向上する。
次に,変形可能な畳み込みを改良した効率的な物体検出ネットワークを構築し,最先端の量子化手法を用いてネットワークを定量化する。
我々はFPGA上に統一ハードウェアエンジンを実装し、ネットワーク内のすべての操作をサポートする。
予備実験により,変形可能な畳み込みの共設計最適化により,精度が低下し,高速化が達成できることを示した。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Quantum-Inspired Edge Detection Algorithms Implementation using New
Dynamic Visual Data Representation and Short-Length Convolution Computation [6.950510860295866]
本稿では、1次元および2次元信号の畳み込みと勾配のペア変換に基づく新しい量子表現と計算について述べる。
新しいデータ表現は、量子エッジ検出、勾配、畳み込みの複数の例で示されている。
論文 参考訳(メタデータ) (2022-10-31T17:13:27Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Adaptive Convolutions with Per-pixel Dynamic Filter Atom [24.691793951360914]
画素ごとの適応フィルタによるスケーラブルな動的畳み込みを導入する。
コンボリューション層へのプラグアンドプレイ置換として、ピクセル単位の動的原子による適応的畳み込みは、画像内分散の明示的なモデリングを可能にする。
本稿では,提案手法がタスク間で同等あるいはさらに優れたパフォーマンスを実現することを示す実験を行う。
論文 参考訳(メタデータ) (2021-08-17T22:04:10Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CoDeNet: Efficient Deployment of Input-Adaptive Object Detection on
Embedded FPGAs [41.43273142203345]
FPGAの柔軟性を利用して、変形可能な畳み込みを伴う新しいオブジェクト検出パイプラインを開発する。
高効率実装では、ソリューションは毎秒26.9フレームに達し、小さなモデルサイズは0.76MBである。
我々のモデルはPascal VOCで67.1 AP50に達し、パラメータは20.9倍小さいがTiny-YOLOより10%正確である。
論文 参考訳(メタデータ) (2020-06-12T17:56:47Z) - Spatially-Attentive Patch-Hierarchical Network for Adaptive Motion
Deblurring [39.92889091819711]
そこで本稿では,空間の異なる場所における大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
上述のモジュールからなるパッチ階層型注意アーキテクチャを用いて,入力画像に存在するぼやけの空間的変動を暗黙的に検出する。
われわれの設計は、最先端の精度とスピードを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-11T09:24:00Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。