論文の概要: SOTR: Segmenting Objects with Transformers
- arxiv url: http://arxiv.org/abs/2108.06747v1
- Date: Sun, 15 Aug 2021 14:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 02:33:56.165459
- Title: SOTR: Segmenting Objects with Transformers
- Title(参考訳): SOTR: トランスフォーマーによるオブジェクトのセグメンテーション
- Authors: Ruohao Guo, Dantong Niu, Liao Qu, Zhenbo Li
- Abstract要約: 高品質なインスタンスセグメンテーションのための,新しい,フレキシブルで効果的なトランスフォーマーベースモデルを提案する。
提案手法は, TRansformer (SOTR) を用いたSegmenting Objects (Segmenting Objects) により, 分割パイプラインを単純化する。
我々のSOTRはMS COCOデータセットでよく機能し、最先端のインスタンスセグメンテーションアプローチを超えています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most recent transformer-based models show impressive performance on vision
tasks, even better than Convolution Neural Networks (CNN). In this work, we
present a novel, flexible, and effective transformer-based model for
high-quality instance segmentation. The proposed method, Segmenting Objects
with TRansformers (SOTR), simplifies the segmentation pipeline, building on an
alternative CNN backbone appended with two parallel subtasks: (1) predicting
per-instance category via transformer and (2) dynamically generating
segmentation mask with the multi-level upsampling module. SOTR can effectively
extract lower-level feature representations and capture long-range context
dependencies by Feature Pyramid Network (FPN) and twin transformer,
respectively. Meanwhile, compared with the original transformer, the proposed
twin transformer is time- and resource-efficient since only a row and a column
attention are involved to encode pixels. Moreover, SOTR is easy to be
incorporated with various CNN backbones and transformer model variants to make
considerable improvements for the segmentation accuracy and training
convergence. Extensive experiments show that our SOTR performs well on the MS
COCO dataset and surpasses state-of-the-art instance segmentation approaches.
We hope our simple but strong framework could serve as a preferment baseline
for instance-level recognition. Our code is available at
https://github.com/easton-cau/SOTR.
- Abstract(参考訳): 最近のトランスフォーマーベースのモデルは、畳み込みニューラルネットワーク(cnn)よりも優れた視覚タスクで印象的なパフォーマンスを示している。
本稿では,高品質インスタンスセグメンテーションのための新しいフレキシブルで効果的なトランスフォーマモデルを提案する。
TRansformers (SOTR) を用いたSegmenting Objects (Segmenting Objects) は,2つの並列サブタスクを付加した代替CNNバックボーン上に構築されたセグメンテーションパイプラインを単純化し,(1)トランスフォーマーによるインスタンスごとのカテゴリ予測,(2)マルチレベルアップサンプリングモジュールによるセグメンテーションマスクを動的に生成する。
SOTRは、低レベルの特徴表現を効果的に抽出し、FPN(Feature Pyramid Network)とツイントランスによる長距離コンテキスト依存をキャプチャすることができる。
一方、元々の変圧器と比較して、提案された双変圧器はピクセルの符号化には行と列のみの注意が必要であるため、時間と資源効率が良い。
さらに、SOTRを様々なCNNバックボーンやトランスフォーマーモデルに組み込むことで、セグメンテーション精度とトレーニング収束性を大幅に改善することができる。
大規模な実験により、私たちのSOTRはMS COCOデータセット上で良好に動作し、最先端のインスタンスセグメンテーションアプローチを超えていることが示された。
シンプルだが強力なフレームワークが、インスタンスレベルの認識のベースラインとして役立つことを願っています。
私たちのコードはhttps://github.com/easton-cau/sotrで利用可能です。
関連論文リスト
- SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - End-to-End Referring Video Object Segmentation with Multimodal
Transformers [0.0]
本稿では,ビデオオブジェクトのセグメンテーションタスクへの簡単なトランスフォーマーベースアプローチを提案する。
我々のフレームワークは、MTTR(Multimodal Tracking Transformer)と呼ばれ、RVOSタスクをシーケンス予測問題としてモデル化している。
MTTRはエンドツーエンドのトレーニングが可能で、テキスト関連の帰納バイアスコンポーネントが不要で、追加のマスクリファインメント後処理ステップを必要としない。
論文 参考訳(メタデータ) (2021-11-29T18:59:32Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。