論文の概要: ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation
- arxiv url: http://arxiv.org/abs/2403.11376v3
- Date: Sat, 13 Apr 2024 20:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 20:12:09.274309
- Title: ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation
- Title(参考訳): ShapeFormer: Visible-to-Amodal Transformer-based Amodal Instance Segmentation
- Authors: Minh Tran, Winston Bounsavy, Khoa Vo, Anh Nguyen, Tri Nguyen, Ngan Le,
- Abstract要約: ShapeFormerは、可視的からアモーダルな遷移を持つTransformerベースのモデルである。
これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。
ShapeFormerは、Visible-Occluding Mask Head、Shape-Prior Amodal Mask Head、Calegory-Specific Shape Prior Retrieverの3つの主要なモジュールで構成されている。
- 参考スコア(独自算出の注目度): 11.51684042494713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal Instance Segmentation (AIS) presents a challenging task as it involves predicting both visible and occluded parts of objects within images. Existing AIS methods rely on a bidirectional approach, encompassing both the transition from amodal features to visible features (amodal-to-visible) and from visible features to amodal features (visible-to-amodal). Our observation shows that the utilization of amodal features through the amodal-to-visible can confuse the visible features due to the extra information of occluded/hidden segments not presented in visible display. Consequently, this compromised quality of visible features during the subsequent visible-to-amodal transition. To tackle this issue, we introduce ShapeFormer, a decoupled Transformer-based model with a visible-to-amodal transition. It facilitates the explicit relationship between output segmentations and avoids the need for amodal-to-visible transitions. ShapeFormer comprises three key modules: (i) Visible-Occluding Mask Head for predicting visible segmentation with occlusion awareness, (ii) Shape-Prior Amodal Mask Head for predicting amodal and occluded masks, and (iii) Category-Specific Shape Prior Retriever aims to provide shape prior knowledge. Comprehensive experiments and extensive ablation studies across various AIS benchmarks demonstrate the effectiveness of our ShapeFormer. The code is available at: https://github.com/UARK-AICV/ShapeFormer
- Abstract(参考訳): Amodal Instance Segmentation (AIS)は、画像内のオブジェクトの可視部分と隠蔽部分の両方を予測するため、困難なタスクを提示する。
既存のAIS手法は、アモーダル特徴から可視的特徴(可視的特徴)への移行と、可視的特徴から可視的特徴(可視的特徴から可視的特徴(可視的特徴)への移行の両方を含む、双方向アプローチに依存している。
観察の結果,アモーダル・ツー・ヴィジュアブルによるアモーダルな特徴の活用は,視覚ディスプレイに表示されない隠蔽/隠蔽セグメントの余分な情報により,可視的特徴を混乱させる可能性が示唆された。
その結果、その後の可視的・非可視的遷移における可視的特徴の質を損なうことになった。
この問題に対処するために、私たちは、可視からアモーダルへの遷移を持つ、分離されたTransformerベースのモデルであるShapeFormerを紹介します。
これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。
ShapeFormerは3つの重要なモジュールから構成される。
一 隠蔽認識による可視的セグメンテーション予測のための可視性マスクヘッド
(二)アモーダルマスク及び隠蔽マスク予測用形状プリア・アモーダルマスクヘッド及び
三 カテゴリー比形形先取先取先取先取先取先取先取先取先取先取先取先取
様々なAISベンチマークにおける総合的な実験と広範囲なアブレーション研究は、ShapeFormerの有効性を実証している。
コードは、https://github.com/UARK-AICV/ShapeFormerで入手できる。
関連論文リスト
- Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - AISFormer: Amodal Instance Segmentation with Transformer [9.042737643989561]
Amodal Instance(AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。
本稿では、Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
論文 参考訳(メタデータ) (2022-10-12T15:42:40Z) - Exploring Modality-shared Appearance Features and Modality-invariant
Relation Features for Cross-modality Person Re-Identification [72.95858515157603]
クロスモダリティの人物再識別作業は、識別モダリティ共有機能に依存する。
初期の成功にもかかわらず、このようなモダリティ共有の外観機能は十分なモダリティ不変情報をキャプチャできない。
クロスモダリティの変動をさらに低減するために、新しいクロスモダリティ四重極損失が提案される。
論文 参考訳(メタデータ) (2021-04-23T11:14:07Z) - Amodal Segmentation Based on Visible Region Segmentation and Shape Prior [43.40655235118393]
本稿では,人間の行動を模倣し,学習の曖昧さを解決する枠組みを提案する。
本モデルでは,可視領域に集中し,記憶に先立つ形状を利用してアモーダルマスクを推定する。
実験の結果,提案モデルが既存の最新手法を上回っていることが示された。
論文 参考訳(メタデータ) (2020-12-10T11:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。