論文の概要: PolyFormer: Referring Image Segmentation as Sequential Polygon
Generation
- arxiv url: http://arxiv.org/abs/2302.07387v1
- Date: Tue, 14 Feb 2023 23:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 16:19:46.730623
- Title: PolyFormer: Referring Image Segmentation as Sequential Polygon
Generation
- Title(参考訳): PolyFormer: 逐次ポリゴン生成としてイメージセグメンテーションを参照
- Authors: Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda,
Vijay Mahadevan, R. Manmatha
- Abstract要約: 画素レベルのセグメンテーションマスクを直接予測する代わりに、画像セグメンテーションを参照する問題はシーケンシャルポリゴン生成として定式化される。
これは新しいシーケンス・ツー・シーケンス・フレームワークであるPolygon Transformer(PolyFormer)によって実現されている。
より正確な幾何学的位置決めを行うために,正確な浮動小数点座標を直接予測する回帰型デコーダを提案する。
- 参考スコア(独自算出の注目度): 20.55281741205142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, instead of directly predicting the pixel-level segmentation
masks, the problem of referring image segmentation is formulated as sequential
polygon generation, and the predicted polygons can be later converted into
segmentation masks. This is enabled by a new sequence-to-sequence framework,
Polygon Transformer (PolyFormer), which takes a sequence of image patches and
text query tokens as input, and outputs a sequence of polygon vertices
autoregressively. For more accurate geometric localization, we propose a
regression-based decoder, which predicts the precise floating-point coordinates
directly, without any coordinate quantization error. In the experiments,
PolyFormer outperforms the prior art by a clear margin, e.g., 5.40% and 4.52%
absolute improvements on the challenging RefCOCO+ and RefCOCOg datasets. It
also shows strong generalization ability when evaluated on the referring video
segmentation task without fine-tuning, e.g., achieving competitive 61.5% J&F on
the Ref-DAVIS17 dataset.
- Abstract(参考訳): 本研究では,画素レベルのセグメンテーションマスクを直接予測するのではなく,画像セグメンテーションを参照する問題を逐次ポリゴン生成として定式化し,予測ポリゴンを後にセグメンテーションマスクに変換する。
これは新しいシーケンスからシーケンスへのフレームワークPolygon Transformer(PolyFormer)によって実現され、画像パッチとテキストクエリトークンのシーケンスを入力として取り、ポリゴン頂点のシーケンスを自動回帰的に出力する。
より正確な幾何学的局所化のために,座標量子化誤差を伴わずに正確な浮動小数点座標を直接予測する回帰型デコーダを提案する。
実験では、ポリフォーマーは、挑戦的なrefcoco+とrefcocogデータセットの絶対的な改善である5.40%と4.52%といった明確なマージンで先行技術を上回る。
また、ref-davis17データセットで61.5%のj&fを達成するなど、微調整せずに参照ビデオセグメンテーションタスクで評価した場合、強力な一般化能力を示す。
関連論文リスト
- Box2Poly: Memory-Efficient Polygon Prediction of Arbitrarily Shaped and
Rotated Text [27.556486778356014]
トランスフォーマーに基づくテキスト検出技術は多角形を予測する。
本稿では,ポリゴン予測のためのカスケードデコードパイプラインであるSparse R-CNNをルーツとする革新的なアプローチを提案する。
提案手法は,先行結果のスケールと位置を考慮し,ポリゴン予測を反復的に精錬することで精度を確保できる。
論文 参考訳(メタデータ) (2023-09-20T12:19:07Z) - Real-time instance segmentation with polygons using an
Intersection-over-Union loss [13.020122353444497]
従来型回帰L1損失を新しい領域ベース損失と新しい順序損失で向上させることにより、CenterPolyよりも改善する。
実験により、回帰損失と地域ベースの損失の組み合わせは、CityscapesとIDDテストセットに大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-09T14:43:38Z) - Recurrent Generic Contour-based Instance Segmentation with Progressive
Learning [111.31166268300817]
本稿では,一般的な輪郭型インスタンスセグメンテーションのための新しいディープネットワークアーキテクチャ,すなわちPolySnakeを提案する。
従来のSnakeアルゴリズムに動機付け,提案したPolySnakeはより優れた,堅牢なセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-01-21T05:34:29Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - End-to-End Segmentation via Patch-wise Polygons Prediction [93.91375268580806]
先頭のセグメンテーション法は、出力マップをピクセルグリッドとして表現する。
画像パッチ毎に対象のエッジがモデル化される別の表現を、パッチごとのラベル確率と結合した$k$の頂点を持つポリゴンとして検討する。
論文 参考訳(メタデータ) (2021-12-05T10:42:40Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Polygonal Building Segmentation by Frame Field Learning [37.86051935654666]
我々は、ディープセグメンテーションモデルにフレームフィールド出力を追加することにより、下流タスクで使用されるフォーマットとディープネットワーク出力のギャップを埋める。
我々は、予測されたフレームフィールドを真実の輪郭に整列するディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-30T15:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。