論文の概要: CARAFE++: Unified Content-Aware ReAssembly of FEatures
- arxiv url: http://arxiv.org/abs/2012.04733v1
- Date: Mon, 7 Dec 2020 07:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:12:31.300544
- Title: CARAFE++: Unified Content-Aware ReAssembly of FEatures
- Title(参考訳): CARAFE++:Featureの統一コンテンツ対応再アセンブリ
- Authors: Jiaqi Wang, Kai Chen, Rui Xu, Ziwei Liu, Chen Change Loy, Dahua Lin
- Abstract要約: この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
- 参考スコア(独自算出の注目度): 132.49582482421246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature reassembly, i.e. feature downsampling and upsampling, is a key
operation in a number of modern convolutional network architectures, e.g.,
residual networks and feature pyramids. Its design is critical for dense
prediction tasks such as object detection and semantic/instance segmentation.
In this work, we propose unified Content-Aware ReAssembly of FEatures
(CARAFE++), a universal, lightweight and highly effective operator to fulfill
this goal. CARAFE++ has several appealing properties: (1) Unlike conventional
methods such as pooling and interpolation that only exploit sub-pixel
neighborhood, CARAFE++ aggregates contextual information within a large
receptive field. (2) Instead of using a fixed kernel for all samples (e.g.
convolution and deconvolution), CARAFE++ generates adaptive kernels on-the-fly
to enable instance-specific content-aware handling. (3) CARAFE++ introduces
little computational overhead and can be readily integrated into modern network
architectures. We conduct comprehensive evaluations on standard benchmarks in
object detection, instance/semantic segmentation and image inpainting. CARAFE++
shows consistent and substantial gains across all the tasks (2.5% APbox, 2.1%
APmask, 1.94% mIoU, 1.35 dB respectively) with negligible computational
overhead. It shows great potential to serve as a strong building block for
modern deep networks.
- Abstract(参考訳): 機能を再組み立てする。
機能ダウンサンプリングとアップサンプリングは、残差ネットワークや機能ピラミッドなど、現代の多くの畳み込みネットワークアーキテクチャにおいて重要な操作である。
その設計は、オブジェクト検出やセマンティック/インスタンスセグメンテーションのような密集した予測タスクに不可欠である。
本研究では,この目標を達成するために,汎用的で軽量で高効率な演算子であるContent-Aware ReAssembly of FEatures (CARAFE++)を提案する。
1) サブピクセル近傍のみを利用するプーリングや補間のような従来の方法とは異なり、CARAFE++は大きな受容領域内でコンテキスト情報を集約する。
2) すべてのサンプル(例)に対して固定カーネルを使用する代わりに。
Convolution and Deconvolution) CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするために、オンザフライで適応カーネルを生成する。
(3) CARAFE++は計算オーバーヘッドが少なく、現代的なネットワークアーキテクチャに容易に統合できる。
我々は,オブジェクト検出,インスタンス/意味セグメンテーション,画像インパインティングにおける標準ベンチマークを総合的に評価する。
CARAFE++は、全てのタスク(2.5%のAPbox、2.1%のAPmask、1.94%のmIoU、1.35dB)において、無視できる計算オーバーヘッドを伴う一貫性と実質的な増加を示している。
現代のディープネットワークの強力なビルディングブロックとして機能する大きな可能性を示している。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - Multi Receptive Field Network for Semantic Segmentation [8.06045579589765]
セグメンテーションのためのMRFM(Multi-Receptive Field Module)を提案する。
また、オブジェクト/スタッフの境界を識別するのに有効なエッジ認識損失を設計する。
具体的には、Cityscapesデータセットで83.0の平均IoU、Pascal VOC2012データセットで88.4の平均IoUを達成する。
論文 参考訳(メタデータ) (2020-11-17T11:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。