論文の概要: Augmenting Convolutional networks with attention-based aggregation
- arxiv url: http://arxiv.org/abs/2112.13692v1
- Date: Mon, 27 Dec 2021 14:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:54:32.031353
- Title: Augmenting Convolutional networks with attention-based aggregation
- Title(参考訳): 注意に基づく集約による畳み込みネットワークの拡張
- Authors: Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Piotr Bojanowski,
Armand Joulin, Gabriel Synnaeve, Herv\'e J\'egou
- Abstract要約: 我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
- 参考スコア(独自算出の注目度): 55.97184767391253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how to augment any convolutional network with an attention-based
global map to achieve non-local reasoning. We replace the final average pooling
by an attention-based aggregation layer akin to a single transformer block,
that weights how the patches are involved in the classification decision. We
plug this learned aggregation layer with a simplistic patch-based convolutional
network parametrized by 2 parameters (width and depth). In contrast with a
pyramidal design, this architecture family maintains the input patch resolution
across all the layers. It yields surprisingly competitive trade-offs between
accuracy and complexity, in particular in terms of memory consumption, as shown
by our experiments on various computer vision tasks: object classification,
image segmentation and detection.
- Abstract(参考訳): 非局所的推論を実現するために,注意に基づくグローバルマップを用いた畳み込みネットワークの拡張方法を示す。
最終平均プーリングを1つの変圧器ブロックに似たアテンションベースのアグリゲーション層に置き換え、パッチが分類決定にどのように関与しているかを重み付けする。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
ピラミッドの設計とは対照的に、このアーキテクチャファミリーはすべてのレイヤにまたがる入力パッチの解像度を維持している。
これは、オブジェクトの分類、画像分割、検出といった様々なコンピュータビジョンタスクの実験で示されるように、正確性と複雑さ、特にメモリ消費の面で驚くほど競合的なトレードオフをもたらします。
関連論文リスト
- GSTran: Joint Geometric and Semantic Coherence for Point Cloud Segmentation [33.72549134362884]
本稿では,セグメント化作業に適した新しい変圧器ネットワークであるGSTranを提案する。
提案するネットワークは主に,局所幾何学変換器と大域意味変換器の2つの主成分から構成される。
ShapeNetPartとS3DISベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-21T12:12:37Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - Integrative Feature and Cost Aggregation with Transformers for Dense
Correspondence [63.868905184847954]
現在の最先端はTransformerベースのアプローチで、機能記述子やコストボリュームアグリゲーションに重点を置いている。
本稿では,両形態のアグリゲーションを相互にインターリーブするトランスフォーマーネットワークを提案する。
提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-19T03:33:35Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - Auto-Parsing Network for Image Captioning and Visual Question Answering [101.77688388554097]
本稿では,入力データの隠れ木構造を発見し,活用するための自動パーシングネットワーク(APN)を提案する。
具体的には、各自己注意層における注意操作によってパラメータ化された確率的グラフモデル(PGM)を課し、スパース仮定を組み込む。
論文 参考訳(メタデータ) (2021-08-24T08:14:35Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - GAttANet: Global attention agreement for convolutional neural networks [0.0]
自然言語処理用に開発されたものと類似したトランスフォーマーアテンションアーキテクチャは、視覚でも最近効率的であることが証明された。
本稿では,標準畳み込みネットワークの性能を向上できる簡易な注意システムによる実験について報告する。
脳にインスパイアされた様々な畳み込みバックボーンのためのグローバルアテンション契約ネットワークの有用性を実証します。
論文 参考訳(メタデータ) (2021-04-12T15:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。