論文の概要: OVeNet: Offset Vector Network for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.14516v1
- Date: Sat, 25 Mar 2023 16:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:14:40.760616
- Title: OVeNet: Offset Vector Network for Semantic Segmentation
- Title(参考訳): OVeNet:セマンティックセグメンテーションのためのオフセットベクトルネットワーク
- Authors: Stamatis Alexandropoulos, Christos Sakaridis and Petros Maragos
- Abstract要約: 本稿では,近隣の画素からの情報を選択的に活用することを学ぶことによって,クラス予測を改善する手法を提案する。
この前もって、Offset Vector Network (OVeNet) という新しい2頭ネットワークを設計した。
OVeNetは、各画素から各シードピクセルへのオフセットを示す2Dオフセットベクトル場と、標準的なセマンティック予測の両方を生成する。
- 参考スコア(独自算出の注目度): 39.967189050246624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation is a fundamental task in visual scene understanding. We
focus on the supervised setting, where ground-truth semantic annotations are
available. Based on knowledge about the high regularity of real-world scenes,
we propose a method for improving class predictions by learning to selectively
exploit information from neighboring pixels. In particular, our method is based
on the prior that for each pixel, there is a seed pixel in its close
neighborhood sharing the same prediction with the former. Motivated by this
prior, we design a novel two-head network, named Offset Vector Network
(OVeNet), which generates both standard semantic predictions and a dense 2D
offset vector field indicating the offset from each pixel to the respective
seed pixel, which is used to compute an alternative, seed-based semantic
prediction. The two predictions are adaptively fused at each pixel using a
learnt dense confidence map for the predicted offset vector field. We supervise
offset vectors indirectly via optimizing the seed-based prediction and via a
novel loss on the confidence map. Compared to the baseline state-of-the-art
architectures HRNet and HRNet+OCR on which OVeNet is built, the latter achieves
significant performance gains on two prominent benchmarks for semantic
segmentation of driving scenes, namely Cityscapes and ACDC. Code is available
at https://github.com/stamatisalex/OVeNet
- Abstract(参考訳): セマンティックセグメンテーションは視覚的シーン理解の基本的な課題である。
我々は、基幹構文のセマンティックアノテーションが利用できる教師付き設定に焦点を当てる。
実世界のシーンの高規則性に関する知識に基づいて,近隣の画素からの情報を選択的に活用することを学ぶことによって,クラス予測を改善する手法を提案する。
特に,本手法は,各画素に対して,その近傍に同じ予測値を共有するシードピクセルが存在することに基づく。
そこで本研究では,新たな2つのヘッドネットワークであるoffset vector network (ovenet) を設計し,各画素から各シード画素へのオフセットを示す2次元オフセットベクトルフィールドと標準意味予測を生成する。
予測オフセットベクトル場に対する学習密度信頼度マップを用いて、2つの予測を各画素で適応的に融合する。
シードベース予測の最適化と信頼度マップの新たな損失により,オフセットベクトルを間接的に監視する。
OVeNetが構築されているHRNetとHRNet+OCRのベースラインアーキテクチャと比較して、後者は運転シーン、すなわちCityscapesとACDCのセマンティックセグメンテーションのための2つの顕著なベンチマークにおいて、大幅なパフォーマンス向上を実現している。
コードはhttps://github.com/stamatisalex/OVeNetで入手できる。
関連論文リスト
- Self-supervised Learning of Contextualized Local Visual Embeddings [0.0]
Contextualized Local Visual Embeddings (CLoVE) は、密集した予測タスクに適した表現を学習する自己教師型畳み込み方式である。
CLoVEの事前訓練された表現を複数のデータセットでベンチマークする。
CLOVEは、CNNベースのアーキテクチャに対して、下流の4つの密集した予測タスクで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2023-10-01T00:13:06Z) - SATR: Zero-Shot Semantic Segmentation of 3D Shapes [74.08209893396271]
大規模オフザシェルフ2次元画像認識モデルを用いて3次元形状のゼロショットセマンティックセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では、SATRアルゴリズムを開発し、ShapeNetPartと提案したFAUSTベンチマークを用いて評価する。
SATRは最先端のパフォーマンスを達成し、ベースラインアルゴリズムを平均mIoUの1.3%と4%で上回っている。
論文 参考訳(メタデータ) (2023-04-11T00:43:16Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - Improving Semantic Image Segmentation via Label Fusion in Semantically
Textured Meshes [10.645137380835994]
ビデオシーケンスのセマンティックなピクセルラベルを教師なしで改善できるラベル融合フレームワークを提案する。
環境の3Dメッシュ表現を使用し、異なるフレームの予測をセマンティックメッシュテクスチャを用いた一貫した表現に融合する。
我々は,最先端セグメンテーションネットワークESANetが生成するアノテーションを52.05 %から58.25 %のピクセル精度で改善するScannetデータセット上で評価した。
論文 参考訳(メタデータ) (2021-11-22T10:47:32Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - NENET: An Edge Learnable Network for Link Prediction in Scene Text [1.815512110340033]
ノードとエッジの両方を学習できる新しいグラフニューラルネットワーク(GNN)アーキテクチャを提案する。
我々は、よく知られたSynthTextデータセットに概念を示し、最先端の手法と比較してトップ結果を達成する。
論文 参考訳(メタデータ) (2020-05-25T14:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。