論文の概要: AISFormer: Amodal Instance Segmentation with Transformer
- arxiv url: http://arxiv.org/abs/2210.06323v1
- Date: Wed, 12 Oct 2022 15:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:07:37.168785
- Title: AISFormer: Amodal Instance Segmentation with Transformer
- Title(参考訳): AISFormer: Transformerを使ったアモーダルインスタンスセグメンテーション
- Authors: Minh Tran, Khoa Vo, Kashu Yamazaki, Arthur Fernandes, Michael Kidd,
and Ngan Le
- Abstract要約: Amodal Instance(AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。
本稿では、Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
- 参考スコア(独自算出の注目度): 2.6468884039307805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal Instance Segmentation (AIS) aims to segment the region of both visible
and possible occluded parts of an object instance. While Mask R-CNN-based AIS
approaches have shown promising results, they are unable to model high-level
features coherence due to the limited receptive field. The most recent
transformer-based models show impressive performance on vision tasks, even
better than Convolution Neural Networks (CNN). In this work, we present
AISFormer, an AIS framework, with a Transformer-based mask head. AISFormer
explicitly models the complex coherence between occluder, visible, amodal, and
invisible masks within an object's regions of interest by treating them as
learnable queries. Specifically, AISFormer contains four modules: (i) feature
encoding: extract ROI and learn both short-range and long-range visual
features. (ii) mask transformer decoding: generate the occluder, visible, and
amodal mask query embeddings by a transformer decoder (iii) invisible mask
embedding: model the coherence between the amodal and visible masks, and (iv)
mask predicting: estimate output masks including occluder, visible, amodal and
invisible. We conduct extensive experiments and ablation studies on three
challenging benchmarks i.e. KINS, D2SA, and COCOA-cls to evaluate the
effectiveness of AISFormer. The code is available at:
https://github.com/UARK-AICV/AISFormer
- Abstract(参考訳): Amodal Instance Segmentation (AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。
Mask R-CNNベースのAISアプローチは有望な結果を示しているが、受容領域が限られているため、高レベルの特徴コヒーレンスをモデル化することはできない。
最近のトランスフォーマーベースのモデルは、畳み込みニューラルネットワーク(cnn)よりも優れた視覚タスクで印象的なパフォーマンスを示している。
本稿では,Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
AISFormerは、学習可能なクエリとして扱うことにより、オブジェクトの関心領域内のオクルーダー、可視性、アモーダル、および見えないマスク間の複雑なコヒーレンスを明示的にモデル化する。
具体的には、AISFormerには4つのモジュールがある。
(i)特徴符号化:ROIを抽出し、短距離と長距離の両方の視覚特徴を学ぶ。
(ii)マスクトランスデコーディング:トランスデコーダによるオクルーダ、可視、およびアモーダルマスククエリの埋め込みを生成する
(iii)見えないマスクの埋め込み:アモーダルと目に見えるマスクのコヒーレンスをモデル化し
(iv)マスク予測:occluder, visible, amodal, invisibleを含む出力マスクの推定。
AISFormerの有効性を評価するために、KINS、D2SA、COCOA-clsの3つの挑戦的ベンチマークに関する広範囲な実験とアブレーション研究を行った。
コードは、https://github.com/UARK-AICV/AISFormerで入手できる。
関連論文リスト
- Amodal Ground Truth and Completion in the Wild [92.36449676571237]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、アモーダル完了評価ベンチマーク、MP3D-Amodalを構築するために使用される。
提案手法は,Amodalセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。