論文の概要: ISTR: End-to-End Instance Segmentation with Transformers
- arxiv url: http://arxiv.org/abs/2105.00637v2
- Date: Thu, 6 May 2021 03:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 10:45:53.293264
- Title: ISTR: End-to-End Instance Segmentation with Transformers
- Title(参考訳): ISTR: トランスフォーマーによるエンドツーエンドインスタンスセグメンテーション
- Authors: Jie Hu, Liujuan Cao, Yao Lu, ShengChuan Zhang, Yan Wang, Ke Li, Feiyue
Huang, Ling Shao, Rongrong Ji
- Abstract要約: ISTRと呼ばれるインスタンスセグメンテーショントランスフォーマーを提案します。これは、その種類の最初のエンドツーエンドフレームワークです。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
ISTRは、提案されたエンドツーエンドのメカニズムにより、近似ベースのサブオプティマティック埋め込みでも最先端のパフォーマンスを発揮します。
- 参考スコア(独自算出の注目度): 147.14073165997846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end paradigms significantly improve the accuracy of various
deep-learning-based computer vision models. To this end, tasks like object
detection have been upgraded by replacing non-end-to-end components, such as
removing non-maximum suppression by training with a set loss based on bipartite
matching. However, such an upgrade is not applicable to instance segmentation,
due to its significantly higher output dimensions compared to object detection.
In this paper, we propose an instance segmentation Transformer, termed ISTR,
which is the first end-to-end framework of its kind. ISTR predicts
low-dimensional mask embeddings, and matches them with ground truth mask
embeddings for the set loss. Besides, ISTR concurrently conducts detection and
segmentation with a recurrent refinement strategy, which provides a new way to
achieve instance segmentation compared to the existing top-down and bottom-up
frameworks. Benefiting from the proposed end-to-end mechanism, ISTR
demonstrates state-of-the-art performance even with approximation-based
suboptimal embeddings. Specifically, ISTR obtains a 46.8/38.6 box/mask AP using
ResNet50-FPN, and a 48.1/39.9 box/mask AP using ResNet101-FPN, on the MS COCO
dataset. Quantitative and qualitative results reveal the promising potential of
ISTR as a solid baseline for instance-level recognition. Code has been made
available at: https://github.com/hujiecpp/ISTR.
- Abstract(参考訳): エンドツーエンドのパラダイムは、様々なディープラーニングベースのコンピュータビジョンモデルの精度を大幅に向上させる。
この目的のために、オブジェクト検出のようなタスクは、二部マッチングに基づくセット損失によるトレーニングによる非最大抑制を取り除くなど、非エンドツーエンドコンポーネントを置き換えることでアップグレードされている。
しかし、このようなアップグレードは、オブジェクト検出に比べて出力次元がかなり大きいため、インスタンスセグメンテーションには適用できない。
本稿では,この方式の最初のエンドツーエンドフレームワークである ISTR と呼ばれるインスタンス分割変換器を提案する。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
さらに、istrは、既存のトップダウンおよびボトムアップフレームワークと比較して、インスタンスセグメンテーションを達成する新しい方法を提供する、反復的なリファインメント戦略で、検出とセグメンテーションを同時に実施する。
ISTRは、提案したエンドツーエンドメカニズムから、近似に基づく準最適埋め込みであっても、最先端の性能を示す。
具体的には、ResNet50-FPNを用いて46.8/38.6ボックス/マスクAP、MS COCOデータセット上でResNet101-FPNを用いて48.1/39.9ボックス/マスクAPを得る。
定量的および定性的な結果は、インスタンスレベルの認識のための固体ベースラインとしてのISTRの有望な可能性を明らかにする。
コードは、https://github.com/hujiecpp/ISTR.comで公開されている。
関連論文リスト
- SRFormer: Text Detection Transformer with Incorporated Segmentation and
Regression [6.74412860849373]
本稿では,アマルガメーションと回帰を併用した統合DTRモデルSRFormerを提案する。
実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。
提案手法の強靭性,優れたトレーニングとデータ効率,および最先端の性能について検討した。
論文 参考訳(メタデータ) (2023-08-21T07:34:31Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - UniInst: Unique Representation for End-to-End Instance Segmentation [29.974973664317485]
ボックスフリーでNMSフリーなエンドツーエンドのインスタンスセグメンテーションフレームワークUniInstを提案する。
具体的には、各インスタンスに1つのユニークな表現を動的に割り当てるインスタンス対応1対1の代入スキームを設計する。
これらの技術により、最初のFCNベースのエンドツーエンドインスタンスセグメンテーションフレームワークであるUniInstは、競争力のあるパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-25T10:40:26Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Weakly Supervised Instance Segmentation by Deep Community Learning [39.18749732409763]
複数のタスクによる深層コミュニティ学習に基づく弱教師付きインスタンスセグメンテーションアルゴリズムを提案する。
我々は、統合されたディープニューラルネットワークアーキテクチャを設計することでこの問題に対処する。
提案アルゴリズムは、弱教師付き設定における最先端性能を実現する。
論文 参考訳(メタデータ) (2020-01-30T08:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。