論文の概要: SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time
Segmentation
- arxiv url: http://arxiv.org/abs/2011.12025v2
- Date: Fri, 5 Aug 2022 15:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:27:24.665714
- Title: SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time
Segmentation
- Title(参考訳): segblocks:リアルタイムセグメンテーションのためのブロックベース動的解像度ネットワーク
- Authors: Thomas Verelst and Tinne Tuytelaars
- Abstract要約: SegBlocksは、その複雑さに基づいて、画像領域の処理解像度を動的に調整する。
複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。
提案手法は,SwiftNet-RN18の浮動小数点演算数を60%削減し,推論速度を50%向上させる。
- 参考スコア(独自算出の注目度): 47.338987325018614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SegBlocks reduces the computational cost of existing neural networks, by
dynamically adjusting the processing resolution of image regions based on their
complexity. Our method splits an image into blocks and downsamples blocks of
low complexity, reducing the number of operations and memory consumption. A
lightweight policy network, selecting the complex regions, is trained using
reinforcement learning. In addition, we introduce several modules implemented
in CUDA to process images in blocks. Most important, our novel BlockPad module
prevents the feature discontinuities at block borders of which existing methods
suffer, while keeping memory consumption under control. Our experiments on
Cityscapes, Camvid and Mapillary Vistas datasets for semantic segmentation show
that dynamically processing images offers a better accuracy versus complexity
trade-off compared to static baselines of similar complexity. For instance, our
method reduces the number of floating-point operations of SwiftNet-RN18 by 60%
and increases the inference speed by 50%, with only 0.3% decrease in mIoU
accuracy on Cityscapes.
- Abstract(参考訳): segblocksは、画像領域の処理解像度を複雑度に応じて動的に調整することで、既存のニューラルネットワークの計算コストを削減する。
本手法では,イメージをブロックに分割し,低複雑性のブロックをサンプリングし,演算数やメモリ消費を減らす。
複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。
さらに,ブロック内の画像を処理するためにCUDAに実装された複数のモジュールについても紹介する。
最も重要なのは、新しいblockpadモジュールは、メモリ消費を制御しながら、既存のメソッドが抱えるブロック境界における機能不連続を防止します。
セマンティクスセグメンテーションのためのcityscapes, camvid, mapillary vistasデータセットを用いた実験により,画像の動的処理は,類似する複雑性の静的ベースラインと比較して,より精度が向上することが示された。
例えば、SwiftNet-RN18の浮動小数点演算数を60%削減し、推論速度を50%向上させ、CityscapesのmIoU精度はわずか0.3%低下した。
関連論文リスト
- UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。
本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T06:28:43Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文 参考訳(メタデータ) (2023-09-16T08:12:12Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - BlockCopy: High-Resolution Video Processing with Block-Sparse Feature
Propagation and Online Policies [57.62315799929681]
BlockCopyは、事前訓練されたフレームベースのCNNを高速化して、より効率的にビデオを処理するスキームである。
軽量ポリシーネットワークは、画像内の重要領域を決定し、選択された領域のみに操作を適用する。
非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。
論文 参考訳(メタデータ) (2021-08-20T21:16:01Z) - PNEN: Pyramid Non-Local Enhanced Networks [23.17149002568982]
我々は,各画素間の接続を構築するために,新しい非局所モジュールであるピラミッド非局所ブロックを提案する。
提案したモジュールに基づいて,エッジ保存画像平滑化のためのピラミッド非局所拡張ネットワークを考案する。
超解像法と超解像法という2つの既存手法に統合し,一貫した性能向上を実現した。
論文 参考訳(メタデータ) (2020-08-22T03:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。