Fugu-MT 論文翻訳(概要): SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation

論文の概要: SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation

arxiv url: http://arxiv.org/abs/2011.12025v2
Date: Fri, 5 Aug 2022 15:46:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 13:27:24.665714
Title: SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation
Title（参考訳）: segblocks:リアルタイムセグメンテーションのためのブロックベース動的解像度ネットワーク
Authors: Thomas Verelst and Tinne Tuytelaars
Abstract要約: SegBlocksは、その複雑さに基づいて、画像領域の処理解像度を動的に調整する。複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。提案手法は,SwiftNet-RN18の浮動小数点演算数を60%削減し,推論速度を50%向上させる。
参考スコア（独自算出の注目度）: 47.338987325018614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: SegBlocks reduces the computational cost of existing neural networks, by dynamically adjusting the processing resolution of image regions based on their complexity. Our method splits an image into blocks and downsamples blocks of low complexity, reducing the number of operations and memory consumption. A lightweight policy network, selecting the complex regions, is trained using reinforcement learning. In addition, we introduce several modules implemented in CUDA to process images in blocks. Most important, our novel BlockPad module prevents the feature discontinuities at block borders of which existing methods suffer, while keeping memory consumption under control. Our experiments on Cityscapes, Camvid and Mapillary Vistas datasets for semantic segmentation show that dynamically processing images offers a better accuracy versus complexity trade-off compared to static baselines of similar complexity. For instance, our method reduces the number of floating-point operations of SwiftNet-RN18 by 60% and increases the inference speed by 50%, with only 0.3% decrease in mIoU accuracy on Cityscapes.
Abstract（参考訳）: segblocksは、画像領域の処理解像度を複雑度に応じて動的に調整することで、既存のニューラルネットワークの計算コストを削減する。本手法では,イメージをブロックに分割し,低複雑性のブロックをサンプリングし,演算数やメモリ消費を減らす。複雑な領域を選択する軽量なポリシーネットワークを強化学習を用いて訓練する。さらに,ブロック内の画像を処理するためにCUDAに実装された複数のモジュールについても紹介する。最も重要なのは、新しいblockpadモジュールは、メモリ消費を制御しながら、既存のメソッドが抱えるブロック境界における機能不連続を防止します。セマンティクスセグメンテーションのためのcityscapes, camvid, mapillary vistasデータセットを用いた実験により,画像の動的処理は,類似する複雑性の静的ベースラインと比較して,より精度が向上することが示された。例えば、SwiftNet-RN18の浮動小数点演算数を60%削減し、推論速度を50%向上させ、CityscapesのmIoU精度はわずか0.3%低下した。

関連論文リスト

Moiré Zero: An Efficient and High-Performance Neural Architecture for Moiré Removal [8.464291713830127]
MZNetは,モアレパターンを効果的に除去し,モアレゼロ状態に画像が近づくように設計されたU字型ネットワークである。 MZNetは高解像度データセットで最先端のパフォーマンスを達成し、低解像度データセットで競合結果を提供する。
論文参考訳（メタデータ） (2025-07-30T06:16:35Z)
High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。本手法は,最先端モデルのFLOPを24～43%削減する。
論文参考訳（メタデータ） (2025-05-11T13:18:03Z)
CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution [42.76046559103463]
Image Super-Resolution (SR)のような低レベル視覚タスクにおいて、トランスフォーマーベースの手法は印象的な性能を示した。これらの手法は、コンテンツに依存しない局所領域への注意を制限し、長距離依存性をキャプチャする注意力を直接制限する。本稿では,これらの問題に対処する軽量なコンテンツ対応トークン集約ネットワーク(CATANet)を提案する。提案手法はPSNRを最大0.33dB、推論速度をほぼ2倍に向上させる。
論文参考訳（メタデータ） (2025-03-10T04:00:27Z)
CubeFormer: A Simple yet Effective Baseline for Lightweight Image Super-Resolution [55.94314421887744]
軽量画像超解像(SR)法は、解像度を高め、軽量ニューラルネットワークを用いて画像の詳細を復元することを目的としている。分析の結果,これらの手法は,特徴表現や細部回復に悪影響を及ぼす制約付き特徴多様性によって妨げられていることが明らかとなった。そこで我々は,包括的情報集約を完了させることにより,特徴の豊かさを高めるために,CubeFormerというシンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2024-12-03T08:02:26Z)
UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文参考訳（メタデータ） (2024-10-27T06:28:43Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文参考訳（メタデータ） (2024-03-26T17:43:15Z)
Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文参考訳（メタデータ） (2023-12-06T00:51:38Z)
Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。 PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文参考訳（メタデータ） (2023-09-16T08:12:12Z)
Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。提案法は最先端のSR法よりも3倍程度小さい。
論文参考訳（メタデータ） (2023-02-27T14:19:31Z)
Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。 ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文参考訳（メタデータ） (2022-10-04T07:35:01Z)
BlockCopy: High-Resolution Video Processing with Block-Sparse Feature Propagation and Online Policies [57.62315799929681]
BlockCopyは、事前訓練されたフレームベースのCNNを高速化して、より効率的にビデオを処理するスキームである。軽量ポリシーネットワークは、画像内の重要領域を決定し、選択された領域のみに操作を適用する。非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。
論文参考訳（メタデータ） (2021-08-20T21:16:01Z)
PNEN: Pyramid Non-Local Enhanced Networks [23.17149002568982]
我々は,各画素間の接続を構築するために,新しい非局所モジュールであるピラミッド非局所ブロックを提案する。提案したモジュールに基づいて,エッジ保存画像平滑化のためのピラミッド非局所拡張ネットワークを考案する。超解像法と超解像法という2つの既存手法に統合し,一貫した性能向上を実現した。
論文参考訳（メタデータ） (2020-08-22T03:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。