論文の概要: AISFormer: Amodal Instance Segmentation with Transformer
- arxiv url: http://arxiv.org/abs/2210.06323v4
- Date: Sun, 17 Mar 2024 22:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 06:58:04.373031
- Title: AISFormer: Amodal Instance Segmentation with Transformer
- Title(参考訳): AISFormer: Transformerを使ったアモーダルインスタンスセグメンテーション
- Authors: Minh Tran, Khoa Vo, Kashu Yamazaki, Arthur Fernandes, Michael Kidd, Ngan Le,
- Abstract要約: Amodal Instance(AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。
本稿では、Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
- 参考スコア(独自算出の注目度): 9.042737643989561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal Instance Segmentation (AIS) aims to segment the region of both visible and possible occluded parts of an object instance. While Mask R-CNN-based AIS approaches have shown promising results, they are unable to model high-level features coherence due to the limited receptive field. The most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present AISFormer, an AIS framework, with a Transformer-based mask head. AISFormer explicitly models the complex coherence between occluder, visible, amodal, and invisible masks within an object's regions of interest by treating them as learnable queries. Specifically, AISFormer contains four modules: (i) feature encoding: extract ROI and learn both short-range and long-range visual features. (ii) mask transformer decoding: generate the occluder, visible, and amodal mask query embeddings by a transformer decoder (iii) invisible mask embedding: model the coherence between the amodal and visible masks, and (iv) mask predicting: estimate output masks including occluder, visible, amodal and invisible. We conduct extensive experiments and ablation studies on three challenging benchmarks i.e. KINS, D2SA, and COCOA-cls to evaluate the effectiveness of AISFormer. The code is available at: https://github.com/UARK-AICV/AISFormer
- Abstract(参考訳): Amodal Instance Segmentation (AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。
Mask R-CNNベースのAISアプローチは有望な結果を示しているが、受容領域が限られているため、高レベルの特徴コヒーレンスをモデル化することはできない。
最新のトランスフォーマーベースのモデルでは、コンボリューションニューラルネットワーク(CNN)よりも優れた、視覚タスクのパフォーマンスを示している。
本稿では,Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
AISFormerは、学習可能なクエリとして扱うことにより、オブジェクトの関心領域内のオクルーダー、可視性、アモーダル性、および見えないマスク間の複雑なコヒーレンスを明示的にモデル化する。
具体的には、AISFormerには4つのモジュールがある。
(i)特徴符号化:ROIを抽出し、短距離と長距離の両方の視覚特徴を学ぶ。
(ii)マスクトランスデコーディング:トランスデコーダによるオクルーダ、可視、およびアモーダルマスククエリの埋め込みを生成する
(三)目に見えないマスクの埋め込み:アモーダルマスクと可視マスクのコヒーレンスをモデル化し、
(iv)マスク予測:オクルーダー、可視性、アモダル、可視性を含む出力マスクを推定する。
AISFormerの有効性を評価するために、KINS、D2SA、COCOA-clsの3つの挑戦的ベンチマークに関する広範な実験とアブレーション研究を行った。
コードは、https://github.com/UARK-AICV/AISFormerで入手できる。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation [11.51684042494713]
ShapeFormerは、可視的からアモーダルな遷移を持つTransformerベースのモデルである。
これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。
ShapeFormerは3つの主要なモジュールから構成される: 可視性オクルージョンマスクヘッド(Visible-Occluding Mask Head) 隠蔽認識による視認性セグメンテーション(Visible-Occluding Mask Head) および (ii) アモーダルマスクと隠蔽マスク(Occluded masks) および (iii) 形状事前知識を提供するためのカテゴリー特定形状マスクマスクヘッド(Caegory-Specific Shape Pretriever) である。
論文 参考訳(メタデータ) (2024-03-18T00:03:48Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。