論文の概要: Hierarchical Multi-Scale Attention for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2005.10821v1
- Date: Thu, 21 May 2020 17:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:48:50.830544
- Title: Hierarchical Multi-Scale Attention for Semantic Segmentation
- Title(参考訳): セマンティクスセグメンテーションのための階層的マルチスケール注意
- Authors: Andrew Tao, Karan Sapra, Bryan Catanzaro
- Abstract要約: マルチスケール予測を組み合わせ,注目に基づくアプローチを提案する。
特定のスケールでの予測は、特定の障害モードを解決するのに優れていることを示す。
MapillaryとCityscapesの両方で、最先端の新たな結果が得られます。
- 参考スコア(独自算出の注目度): 29.85420133970138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-scale inference is commonly used to improve the results of semantic
segmentation. Multiple images scales are passed through a network and then the
results are combined with averaging or max pooling. In this work, we present an
attention-based approach to combining multi-scale predictions. We show that
predictions at certain scales are better at resolving particular failures
modes, and that the network learns to favor those scales for such cases in
order to generate better predictions. Our attention mechanism is hierarchical,
which enables it to be roughly 4x more memory efficient to train than other
recent approaches. In addition to enabling faster training, this allows us to
train with larger crop sizes which leads to greater model accuracy. We
demonstrate the result of our method on two datasets: Cityscapes and Mapillary
Vistas. For Cityscapes, which has a large number of weakly labelled images, we
also leverage auto-labelling to improve generalization. Using our approach we
achieve a new state-of-the-art results in both Mapillary (61.1 IOU val) and
Cityscapes (85.1 IOU test).
- Abstract(参考訳): マルチスケール推論は、セマンティックセグメンテーションの結果を改善するために一般的に使用される。
複数の画像スケールがネットワークに渡され、その結果が平均値や最大値のプーリングと組み合わされる。
本稿では,マルチスケール予測を組み合わせるための注意に基づくアプローチを提案する。
我々は,特定のスケールでの予測は特定の障害モードを解決するのに適しており,ネットワークはより優れた予測を生成するためにそのような場合のスケールを好むことを学習することを示す。
私たちのアテンション機構は階層的であり、他のアプローチよりもおよそ4倍のメモリ効率を実現しています。
より高速なトレーニングを可能にすることに加えて、より大きな作物サイズでトレーニングを行うことで、モデル精度が向上する。
提案手法は,CityscapesとMapillary Vistasの2つのデータセットで実証した。
弱ラベル画像が多数存在する都市景観では、一般化を改善するために自動ラベリングも活用している。
Mapillary (61.1 IOU val) と Cityscapes (85.1 IOU test) の両方で、新しい最先端の結果が得られる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Intra-Batch Supervision for Panoptic Segmentation on High-Resolution
Images [4.314956204483074]
統一パノプティカルセグメンテーション法は、いくつかのデータセットで最先端の結果を達成している。
高分解能データセット上でこれらの結果を達成するために、これらの手法は作物ベースの訓練を適用している。
作物をベースとした訓練は一般的に有利だが、有害な副作用もある。
Intra-Batch Supervision (IBS) を提案する。
論文 参考訳(メタデータ) (2023-04-17T12:48:36Z) - Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial
Representation Learning [55.762840052788945]
本研究では,異なるスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。
その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。
論文 参考訳(メタデータ) (2022-12-30T03:15:34Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Redesigning Multi-Scale Neural Network for Crowd Counting [68.674652984003]
本稿では, 集団カウントのための多スケール密度マップを階層的にマージする, 密度専門家の階層的混合を導入する。
階層構造の中では、すべてのスケールからの貢献を促進するために、専門家の競争とコラボレーションのスキームが提示されます。
実験の結果,提案手法は5つの公開データセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-08-04T21:49:29Z) - SSR-HEF: Crowd Counting with Multi-Scale Semantic Refining and Hard
Example Focusing [21.326958308285114]
群集カウントの回帰タスクに対するHard Example Focusing(HEF)アルゴリズムを提案する。
HEFアルゴリズムは、簡単なサンプルの寄与を減らし、ハードサンプルに迅速にフォーカスする。
提案手法を検証するため,6つのベンチマークデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-04-15T10:01:35Z) - Bidirectional Multi-scale Attention Networks for Semantic Segmentation
of Oblique UAV Imagery [30.524771772192757]
本稿では、より適応的で効果的な特徴抽出のために、複数スケールの特徴を双方向に融合する新しい双方向多スケールアテンションネットワークを提案する。
当モデルでは,平均和合(mIoU)スコア70.80%でSOTA(State-of-the-art)を達成した。
論文 参考訳(メタデータ) (2021-02-05T11:02:15Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。