論文の概要: TVConv: Efficient Translation Variant Convolution for Layout-aware
Visual Processing
- arxiv url: http://arxiv.org/abs/2203.10489v1
- Date: Sun, 20 Mar 2022 08:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:52:15.880845
- Title: TVConv: Efficient Translation Variant Convolution for Layout-aware
Visual Processing
- Title(参考訳): TVConv: レイアウト対応ビジュアル処理のための効率的な翻訳バリアント変換
- Authors: Jierun Chen, Tianlang He, Weipeng Zhuo, Li Ma, Sangtae Ha, S.-H. Gary
Chan
- Abstract要約: レイアウト認識型視覚処理のための効率的な翻訳変種畳み込み(TVConv)を開発した。
TVConvは畳み込みの効率を大幅に改善し、様々なネットワークアーキテクチャに簡単に接続できる。
- 参考スコア(独自算出の注目度): 10.996162201540695
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As convolution has empowered many smart applications, dynamic convolution
further equips it with the ability to adapt to diverse inputs. However, the
static and dynamic convolutions are either layout-agnostic or
computation-heavy, making it inappropriate for layout-specific applications,
e.g., face recognition and medical image segmentation. We observe that these
applications naturally exhibit the characteristics of large intra-image
(spatial) variance and small cross-image variance. This observation motivates
our efficient translation variant convolution (TVConv) for layout-aware visual
processing. Technically, TVConv is composed of affinity maps and a
weight-generating block. While affinity maps depict pixel-paired relationships
gracefully, the weight-generating block can be explicitly overparameterized for
better training while maintaining efficient inference. Although conceptually
simple, TVConv significantly improves the efficiency of the convolution and can
be readily plugged into various network architectures. Extensive experiments on
face recognition show that TVConv reduces the computational cost by up to 3.1x
and improves the corresponding throughput by 2.3x while maintaining a high
accuracy compared to the depthwise convolution. Moreover, for the same
computation cost, we boost the mean accuracy by up to 4.21%. We also conduct
experiments on the optic disc/cup segmentation task and obtain better
generalization performance, which helps mitigate the critical data scarcity
issue. Code is available at https://github.com/JierunChen/TVConv.
- Abstract(参考訳): 畳み込みが多くのスマートアプリケーションに力を与えているため、動的畳み込みは様々な入力に適応する能力をさらに備えている。
しかし、静的および動的畳み込みはレイアウトに依存しないか計算量が多いため、例えば顔認識や医用画像のセグメンテーションなど、レイアウト固有のアプリケーションには適さない。
これらの応用は,大きな画像内分散(空間的)と小さな画像間分散の特徴を自然に示している。
この観察は、レイアウト対応の視覚処理のための効率的な翻訳変種畳み込み(TVConv)を動機付ける。
技術的には、TVConvは親和性マップと重量発生ブロックで構成されている。
親和性マップは画素対関係を優雅に表現する一方で、重み付けブロックは、効率のよい推論を維持しながら、より優れたトレーニングのために明示的に過度にパラメータ化することができる。
概念的には単純だが、TVConvは畳み込みの効率を大幅に改善し、様々なネットワークアーキテクチャに簡単に接続できる。
顔認識に関する大規模な実験により、TVConvは計算コストを最大3.1倍に削減し、スループットを2.3倍改善し、奥行きの畳み込みよりも高い精度を維持した。
さらに,同じ計算コストで平均精度を最大4.21%向上させる。
また,視ディスク/カップセグメンテーションタスクの実験を行い,より優れた一般化性能を得ることにより,重要データ不足の軽減に寄与する。
コードはhttps://github.com/JierunChen/TVConv.comで入手できる。
関連論文リスト
- Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Convolutional Xformers for Vision [2.7188347260210466]
視覚変換器(ViT)は、特定のベンチマークにおける最先端の精度にもかかわらず、画像処理において限られた実用的利用しか見つからない。
限られた使用理由としては、畳み込みニューラルネットワーク(CNN)と比較して、より大きなトレーニングデータセットと計算リソースの必要性がある。
本稿では,これらの制約を克服するために,線形アテンション-畳み込みハイブリッドアーキテクチャーであるConvolutional X-formers for Vision (CXV)を提案する。
二次的注意をPerformer,Nystr"omformer,Linear Transformerなどの線形注意機構に置き換えてGPU使用量を削減する。
論文 参考訳(メタデータ) (2022-01-25T12:32:09Z) - Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。
以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。
また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文 参考訳(メタデータ) (2022-01-02T18:35:20Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Skip-Convolutions for Efficient Video Processing [21.823332885657784]
Skip-Convolutionsはビデオストリームにおける大量の冗長性を活用し、計算を節約する。
私たちは、EfficientDetとHRNetという2つの最先端アーキテクチャで、すべての畳み込みをSkip-Convolutionsで置き換えます。
2つの異なるタスクに対して34倍の係数で計算コストを一貫して削減します。
論文 参考訳(メタデータ) (2021-04-23T09:10:39Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z) - Dynamic Region-Aware Convolution [85.20099799084026]
本稿では,複数のフィルタを対応する空間領域に自動的に割り当てる動的領域認識畳み込み(DRConv)を提案する。
ImageNet分類において、DRConvベースのShuffleNetV2-0.5xは6.3%の相対的な改善と46M乗算加算レベルで67.1%の最先端性能を達成する。
論文 参考訳(メタデータ) (2020-03-27T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。