論文の概要: SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations
- arxiv url: http://arxiv.org/abs/2202.07402v1
- Date: Tue, 15 Feb 2022 13:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 15:06:15.277323
- Title: SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations
- Title(参考訳): SODAR: 隣接するマスク表現の動的集約によるオブジェクトの分割
- Authors: Tao Wang, Jun Hao Liew, Yu Li, Yunpeng Chen, Jiashi Feng
- Abstract要約: 最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
- 参考スコア(独自算出の注目度): 90.8752454643737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent state-of-the-art one-stage instance segmentation model SOLO divides
the input image into a grid and directly predicts per grid cell object masks
with fully-convolutional networks, yielding comparably good performance as
traditional two-stage Mask R-CNN yet enjoying much simpler architecture and
higher efficiency. We observe SOLO generates similar masks for an object at
nearby grid cells, and these neighboring predictions can complement each other
as some may better segment certain object part, most of which are however
directly discarded by non-maximum-suppression. Motivated by the observed gap,
we develop a novel learning-based aggregation method that improves upon SOLO by
leveraging the rich neighboring information while maintaining the architectural
efficiency. The resulting model is named SODAR. Unlike the original per grid
cell object masks, SODAR is implicitly supervised to learn mask representations
that encode geometric structure of nearby objects and complement adjacent
representations with context. The aggregation method further includes two novel
designs: 1) a mask interpolation mechanism that enables the model to generate
much fewer mask representations by sharing neighboring representations among
nearby grid cells, and thus saves computation and memory; 2) a deformable
neighbour sampling mechanism that allows the model to adaptively adjust
neighbor sampling locations thus gathering mask representations with more
relevant context and achieving higher performance. SODAR significantly improves
the instance segmentation performance, e.g., it outperforms a SOLO model with
ResNet-101 backbone by 2.2 AP on COCO \texttt{test} set, with only about 3\%
additional computation. We further show consistent performance gain with the
SOLOv2 model.
- Abstract(参考訳): 最近の最先端のワンステージインスタンスセグメンテーションモデルは、入力画像をグリッドに分割し、完全な畳み込みネットワークでグリッドセルオブジェクトマスクごとに直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察し,これらの予測が互いに補完し合うことを観察した。
観測されたギャップによって動機付けられ,建築効率を保ちながら,豊かな隣り合う情報を活用することでSOLOを改善する学習ベースアグリゲーション手法を開発した。
モデル名はSODAR。
元のグリッドセル・オブジェクト・マスクとは異なり、SODARは暗黙的にマスク表現を学習し、近くのオブジェクトの幾何学的構造を符号化し、隣接する表現をコンテキストで補完する。
凝集方法はさらに2つの新しい設計を含む。
1)近隣の格子セル間で隣接する表現を共有することにより、モデルがはるかに少ないマスク表現を生成できるようにするマスク補間機構により、計算とメモリを節約する。
2) モデルが隣接するサンプリング位置を適応的に調整できる変形可能な近接サンプリング機構により, より関連性の高いマスク表現を収集し, 高い性能を実現する。
SODARはインスタンスセグメンテーション性能を著しく改善し、例えば、COCO \texttt{test} セットの 2.2 AP で ResNet-101 のバックボーンを持つ SOLO モデルの性能を約 3 % で上回っている。
さらに,SOLOv2モデルによる一貫した性能向上を示す。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - HAISTA-NET: Human Assisted Instance Segmentation Through Attention [3.073046540587735]
より正確な予測を可能にし,高品質なセグメンテーションマスクを生成する新しい手法を提案する。
我々の人間支援セグメンテーションモデルHAISTA-NETは、既存のStrong Mask R-CNNネットワークを拡張し、人間の特定部分境界を組み込む。
HAISTA-NETは,Mask R-CNN,Strong Mask R-CNN,Mask2Formerなどの最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-04T18:39:14Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - LevelSet R-CNN: A Deep Variational Method for Instance Segmentation [79.20048372891935]
現在、多くのアートモデルはMask R-CNNフレームワークに基づいている。
本稿では,両世界の長所を結合したR-CNNを提案する。
我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-07-30T17:52:18Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。