Fugu-MT 論文翻訳(概要): AISFormer: Amodal Instance Segmentation with Transformer

論文の概要: AISFormer: Amodal Instance Segmentation with Transformer

arxiv url: http://arxiv.org/abs/2210.06323v1
Date: Wed, 12 Oct 2022 15:42:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 15:07:37.168785
Title: AISFormer: Amodal Instance Segmentation with Transformer
Title（参考訳）: AISFormer: Transformerを使ったアモーダルインスタンスセグメンテーション
Authors: Minh Tran, Khoa Vo, Kashu Yamazaki, Arthur Fernandes, Michael Kidd, and Ngan Le
Abstract要約: Amodal Instance(AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。本稿では、Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
参考スコア（独自算出の注目度）: 2.6468884039307805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Amodal Instance Segmentation (AIS) aims to segment the region of both visible and possible occluded parts of an object instance. While Mask R-CNN-based AIS approaches have shown promising results, they are unable to model high-level features coherence due to the limited receptive field. The most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present AISFormer, an AIS framework, with a Transformer-based mask head. AISFormer explicitly models the complex coherence between occluder, visible, amodal, and invisible masks within an object's regions of interest by treating them as learnable queries. Specifically, AISFormer contains four modules: (i) feature encoding: extract ROI and learn both short-range and long-range visual features. (ii) mask transformer decoding: generate the occluder, visible, and amodal mask query embeddings by a transformer decoder (iii) invisible mask embedding: model the coherence between the amodal and visible masks, and (iv) mask predicting: estimate output masks including occluder, visible, amodal and invisible. We conduct extensive experiments and ablation studies on three challenging benchmarks i.e. KINS, D2SA, and COCOA-cls to evaluate the effectiveness of AISFormer. The code is available at: https://github.com/UARK-AICV/AISFormer
Abstract（参考訳）: Amodal Instance Segmentation (AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。 Mask R-CNNベースのAISアプローチは有望な結果を示しているが、受容領域が限られているため、高レベルの特徴コヒーレンスをモデル化することはできない。最近のトランスフォーマーベースのモデルは、畳み込みニューラルネットワーク(cnn)よりも優れた視覚タスクで印象的なパフォーマンスを示している。本稿では,Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。 AISFormerは、学習可能なクエリとして扱うことにより、オブジェクトの関心領域内のオクルーダー、可視性、アモーダル、および見えないマスク間の複雑なコヒーレンスを明示的にモデル化する。具体的には、AISFormerには4つのモジュールがある。 (i)特徴符号化:ROIを抽出し、短距離と長距離の両方の視覚特徴を学ぶ。 (ii)マスクトランスデコーディング:トランスデコーダによるオクルーダ、可視、およびアモーダルマスククエリの埋め込みを生成する (iii)見えないマスクの埋め込み:アモーダルと目に見えるマスクのコヒーレンスをモデル化し (iv)マスク予測:occluder, visible, amodal, invisibleを含む出力マスクの推定。 AISFormerの有効性を評価するために、KINS、D2SA、COCOA-clsの3つの挑戦的ベンチマークに関する広範囲な実験とアブレーション研究を行った。コードは、https://github.com/UARK-AICV/AISFormerで入手できる。

関連論文リスト

ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文参考訳（メタデータ） (2024-07-17T22:04:00Z)
Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文参考訳（メタデータ） (2024-05-30T11:11:54Z)
ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation [11.51684042494713]
ShapeFormerは、可視的からアモーダルな遷移を持つTransformerベースのモデルである。これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。 ShapeFormerは3つの主要なモジュールから構成される: 可視性オクルージョンマスクヘッド(Visible-Occluding Mask Head) 隠蔽認識による視認性セグメンテーション(Visible-Occluding Mask Head) および (ii) アモーダルマスクと隠蔽マスク(Occluded masks) および (iii) 形状事前知識を提供するためのカテゴリー特定形状マスクマスクヘッド(Caegory-Specific Shape Pretriever) である。
論文参考訳（メタデータ） (2024-03-18T00:03:48Z)
Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文参考訳（メタデータ） (2024-03-15T12:44:35Z)
Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文参考訳（メタデータ） (2023-12-28T18:59:41Z)
Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。 MDSMの性能はベースライン法を+10.13で上回った。
論文参考訳（メタデータ） (2023-07-17T16:07:07Z)
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文参考訳（メタデータ） (2023-05-24T16:26:05Z)
SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文参考訳（メタデータ） (2022-02-15T13:53:03Z)
PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文参考訳（メタデータ） (2020-03-13T08:24:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。