論文の概要: Self-attention on Multi-Shifted Windows for Scene Segmentation
- arxiv url: http://arxiv.org/abs/2207.04403v1
- Date: Sun, 10 Jul 2022 07:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:24:50.520273
- Title: Self-attention on Multi-Shifted Windows for Scene Segmentation
- Title(参考訳): シーンセグメンテーションのためのマルチシフトウィンドウの自己注意
- Authors: Litao Yu, Zhibin Li, Jian Zhang, Qiang Wu
- Abstract要約: マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
- 参考スコア(独自算出の注目度): 14.47974086177051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene segmentation in images is a fundamental yet challenging problem in
visual content understanding, which is to learn a model to assign every image
pixel to a categorical label. One of the challenges for this learning task is
to consider the spatial and semantic relationships to obtain descriptive
feature representations, so learning the feature maps from multiple scales is a
common practice in scene segmentation. In this paper, we explore the effective
use of self-attention within multi-scale image windows to learn descriptive
visual features, then propose three different strategies to aggregate these
feature maps to decode the feature representation for dense prediction. Our
design is based on the recently proposed Swin Transformer models, which totally
discards convolution operations. With the simple yet effective multi-scale
feature learning and aggregation, our models achieve very promising performance
on four public scene segmentation datasets, PASCAL VOC2012, COCO-Stuff 10K,
ADE20K and Cityscapes.
- Abstract(参考訳): 画像のシーンセグメンテーションは、視覚的コンテンツ理解の基本的な問題であり、すべての画像ピクセルを分類ラベルに割り当てるモデルを学ぶことである。
この学習課題の1つは、記述的特徴表現を得るための空間的・意味的関係を考察することであり、複数の尺度から特徴写像を学習することはシーンセグメンテーションにおける一般的な実践である。
本稿では,マルチスケール画像ウィンドウ内での自己注意を効果的に活用して記述的視覚特徴を学習し,これらの特徴マップを集約して高密度な予測のために特徴表現をデコードする3つの戦略を提案する。
我々の設計は、畳み込み操作を完全に破棄する最近提案されたSwin Transformerモデルに基づいている。
単純かつ効果的なマルチスケール機能学習と集約により,我々は,pascal voc2012,coco-stuff 10k,ade20k,cityscapesの4つのパブリックシーンセグメンテーションデータセットにおいて,非常に有望なパフォーマンスを実現する。
関連論文リスト
- CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,画像間の共通部分と一意部分の識別と分割を目的とした,部分中心のセマンティック・セマンティック・セマンティック・セグメンテーションの新たな課題を紹介する。
画像間で複数のマスクを分割・推論できる最初のLVLMであるCALICOについて述べる。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene
Classification [14.016637774748677]
Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。
SGMNetと呼ばれるFSRSSCのための新しいシーングラフマッチングに基づくメタラーニングフレームワークを提案する。
UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-10-09T07:43:40Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。
提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。
4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文 参考訳(メタデータ) (2020-11-04T23:07:07Z) - Learning to Segment from Scribbles using Multi-scale Adversarial
Attention Gates [16.28285034098361]
弱い教師付き学習は、スクリブルのような弱いアノテーション形式に依存してモデルを訓練することができる。
我々は、複数の解像度でリアルなセグメンテーションマスクを生成するために、マルチスケールのGANをトレーニングし、スクリブルを使用して画像中の正しい位置を学習する。
モデルの成功の中心は、敵の信号が先行した形状として振る舞うことを条件とした、新しいアテンションゲーティング機構である。
論文 参考訳(メタデータ) (2020-07-02T14:39:08Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Realizing Pixel-Level Semantic Learning in Complex Driving Scenes based
on Only One Annotated Pixel per Class [17.481116352112682]
本稿では,複雑な運転シーン下でのセマンティックセマンティックセマンティクスタスクを提案する。
3段階のプロセスは擬似ラベル生成のために構築され、各カテゴリに最適な特徴表現を徐々に実装する。
Cityscapesデータセットの実験は、提案手法が弱教師付きセマンティックセマンティックセマンティクスタスクを解決するための実現可能な方法であることを示した。
論文 参考訳(メタデータ) (2020-03-10T12:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。