論文の概要: Feature boosting with efficient attention for scene parsing
- arxiv url: http://arxiv.org/abs/2402.19250v1
- Date: Thu, 29 Feb 2024 15:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:25:26.551323
- Title: Feature boosting with efficient attention for scene parsing
- Title(参考訳): シーン解析の効率化による特徴増強
- Authors: Vivek Singh, Shailza Sharma and Fabio Cuzzolin
- Abstract要約: 本稿では,複数レベルの特徴抽出からコンテキストを収集する特徴抽出ネットワークを提案する。
各レベルの表現に対する注意重みを計算し、最終クラスラベルを生成する。
提案したモデルは、ADE20KとCityscapesのデータセットの両方において、最先端のモデルよりも優れています。
- 参考スコア(独自算出の注目度): 6.752935599738123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The complexity of scene parsing grows with the number of object and scene
classes, which is higher in unrestricted open scenes. The biggest challenge is
to model the spatial relation between scene elements while succeeding in
identifying objects at smaller scales. This paper presents a novel
feature-boosting network that gathers spatial context from multiple levels of
feature extraction and computes the attention weights for each level of
representation to generate the final class labels. A novel `channel attention
module' is designed to compute the attention weights, ensuring that features
from the relevant extraction stages are boosted while the others are
attenuated. The model also learns spatial context information at low resolution
to preserve the abstract spatial relationships among scene elements and reduce
computation cost. Spatial attention is subsequently concatenated into a final
feature set before applying feature boosting. Low-resolution spatial attention
features are trained using an auxiliary task that helps learning a coarse
global scene structure. The proposed model outperforms all state-of-the-art
models on both the ADE20K and the Cityscapes datasets.
- Abstract(参考訳): シーン解析の複雑さは、制約のないオープンシーンでは高いオブジェクトとシーンクラスの数で増大する。
最大の課題は、シーン要素間の空間的関係をモデル化し、より小さなスケールでオブジェクトを識別することである。
本稿では,複数レベルの特徴抽出から空間コンテキストを収集し,各レベルの表現に対する注意重みを算出し,最終クラスラベルを生成する特徴ブースティングネットワークを提案する。
新しい「チャンネル・アテンション・モジュール」は、注意重みを計算するために設計され、関連する抽出段階からの特徴が促進され、他の特徴が減衰される。
モデルはまた、低解像度で空間コンテキスト情報を学び、シーン要素間の抽象的な空間関係を保ち、計算コストを低減する。
その後、機能ブースティングを適用する前に、空間的注意を最終機能セットに結合する。
粗いグローバルシーン構造を学習する補助的タスクを用いて,低分解能空間注意特徴を訓練する。
提案されたモデルは、ade20kとcityscapesデータセットの両方の最先端モデルよりも優れている。
関連論文リスト
- Explicitly Disentangled Representations in Object-Centric Learning [0.0]
本稿では, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
特に, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-18T17:22:11Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。
提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。
4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文 参考訳(メタデータ) (2020-11-04T23:07:07Z) - Mutual Information Maximization for Robust Plannable Representations [82.83676853746742]
モデルに基づく強化学習のための情報理論表現学習アルゴリズムMIROを提案する。
提案手法は, 邪魔や散らかったシーンの存在下で, 再建目的よりも頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-16T21:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。