論文の概要: SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time
Segmentation
- arxiv url: http://arxiv.org/abs/2011.12025v2
- Date: Fri, 5 Aug 2022 15:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:27:24.665714
- Title: SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time
Segmentation
- Title(参考訳): segblocks:リアルタイムセグメンテーションのためのブロックベース動的解像度ネットワーク
- Authors: Thomas Verelst and Tinne Tuytelaars
- Abstract要約: SegBlocksは、その複雑さに基づいて、画像領域の処理解像度を動的に調整する。
複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。
提案手法は,SwiftNet-RN18の浮動小数点演算数を60%削減し,推論速度を50%向上させる。
- 参考スコア(独自算出の注目度): 47.338987325018614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SegBlocks reduces the computational cost of existing neural networks, by
dynamically adjusting the processing resolution of image regions based on their
complexity. Our method splits an image into blocks and downsamples blocks of
low complexity, reducing the number of operations and memory consumption. A
lightweight policy network, selecting the complex regions, is trained using
reinforcement learning. In addition, we introduce several modules implemented
in CUDA to process images in blocks. Most important, our novel BlockPad module
prevents the feature discontinuities at block borders of which existing methods
suffer, while keeping memory consumption under control. Our experiments on
Cityscapes, Camvid and Mapillary Vistas datasets for semantic segmentation show
that dynamically processing images offers a better accuracy versus complexity
trade-off compared to static baselines of similar complexity. For instance, our
method reduces the number of floating-point operations of SwiftNet-RN18 by 60%
and increases the inference speed by 50%, with only 0.3% decrease in mIoU
accuracy on Cityscapes.
- Abstract(参考訳): segblocksは、画像領域の処理解像度を複雑度に応じて動的に調整することで、既存のニューラルネットワークの計算コストを削減する。
本手法では,イメージをブロックに分割し,低複雑性のブロックをサンプリングし,演算数やメモリ消費を減らす。
複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。
さらに,ブロック内の画像を処理するためにCUDAに実装された複数のモジュールについても紹介する。
最も重要なのは、新しいblockpadモジュールは、メモリ消費を制御しながら、既存のメソッドが抱えるブロック境界における機能不連続を防止します。
セマンティクスセグメンテーションのためのcityscapes, camvid, mapillary vistasデータセットを用いた実験により,画像の動的処理は,類似する複雑性の静的ベースラインと比較して,より精度が向上することが示された。
例えば、SwiftNet-RN18の浮動小数点演算数を60%削減し、推論速度を50%向上させ、CityscapesのmIoU精度はわずか0.3%低下した。
関連論文リスト
- Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文 参考訳(メタデータ) (2023-09-16T08:12:12Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - BlockCopy: High-Resolution Video Processing with Block-Sparse Feature
Propagation and Online Policies [57.62315799929681]
BlockCopyは、事前訓練されたフレームベースのCNNを高速化して、より効率的にビデオを処理するスキームである。
軽量ポリシーネットワークは、画像内の重要領域を決定し、選択された領域のみに操作を適用する。
非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。
論文 参考訳(メタデータ) (2021-08-20T21:16:01Z) - Learned Block-based Hybrid Image Compression [33.44942603425436]
学習画像圧縮に関する最近の研究は、完全な解像度で符号化および復号処理を行う。
フルレゾリューション推論は、GPUリソースが限られているメモリ外問題(OOM)を引き起こすことが多い。
本稿では,学習ブロックベースのハイブリッド画像圧縮フレームワークを提供する。
論文 参考訳(メタデータ) (2020-12-17T12:47:39Z) - PNEN: Pyramid Non-Local Enhanced Networks [23.17149002568982]
我々は,各画素間の接続を構築するために,新しい非局所モジュールであるピラミッド非局所ブロックを提案する。
提案したモジュールに基づいて,エッジ保存画像平滑化のためのピラミッド非局所拡張ネットワークを考案する。
超解像法と超解像法という2つの既存手法に統合し,一貫した性能向上を実現した。
論文 参考訳(メタデータ) (2020-08-22T03:10:48Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。