論文の概要: EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2412.08628v1
- Date: Wed, 11 Dec 2024 18:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:05.178342
- Title: EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation
- Title(参考訳): EOV-Seg: オープンボキャブラリ・パノプティブ・セグメンテーションの効率化
- Authors: Hongwei Niu, Jie Hu, Jianghang Lin, Shengchuan Zhang,
- Abstract要約: EOV-Segは、オープン・ボキャブラリ・パノプティ・セグメンテーションのための新しい単一ステージ、共有、効率的、空間認識のフレームワークである。
視覚的アグリゲーションのセマンティック理解を改善するために,Vocabulary-Aware Selection (VAS) モジュールを導入する。
The Two-way Dynamic Embedding Experts (TDEE) was introduced a Two-way Dynamic Embedding Experts (TDEE) to leverage the spatial awareness ability of ViT-based CLIP backbone。
- 参考スコア(独自算出の注目度): 8.305471112974924
- License:
- Abstract: Open-vocabulary panoptic segmentation aims to segment and classify everything in diverse scenes across an unbounded vocabulary. Existing methods typically employ two-stage or single-stage framework. The two-stage framework involves cropping the image multiple times using masks generated by a mask generator, followed by feature extraction, while the single-stage framework relies on a heavyweight mask decoder to make up for the lack of spatial position information through self-attention and cross-attention in multiple stacked Transformer blocks. Both methods incur substantial computational overhead, thereby hindering the efficiency of model inference. To fill the gap in efficiency, we propose EOV-Seg, a novel single-stage, shared, efficient, and spatial-aware framework designed for open-vocabulary panoptic segmentation. Specifically, EOV-Seg innovates in two aspects. First, a Vocabulary-Aware Selection (VAS) module is proposed to improve the semantic comprehension of visual aggregated features and alleviate the feature interaction burden on the mask decoder. Second, we introduce a Two-way Dynamic Embedding Experts (TDEE), which efficiently utilizes the spatial awareness capabilities of ViT-based CLIP backbone. To the best of our knowledge, EOV-Seg is the first open-vocabulary panoptic segmentation framework towards efficiency, which runs faster and achieves competitive performance compared with state-of-the-art methods. Specifically, with COCO training only, EOV-Seg achieves 24.2 PQ, 31.6 mIoU, and 12.7 FPS on the ADE20K dataset for panoptic and semantic segmentation tasks and the inference time of EOV-Seg is 4-21 times faster than state-of-the-art methods. Especially, equipped with ResNet-50 backbone, EOV-Seg runs 25 FPS with only 71M parameters on a single RTX 3090 GPU. Code is available at \url{https://github.com/nhw649/EOV-Seg}.
- Abstract(参考訳): オープン・ボキャブラリ・パノプティクス・セグメンテーション(Open-vocabulary panoptic segmentation)は、無境界のボキャブラリにまたがる多様なシーンのすべてを分類・分類することを目的としている。
既存の方法は一般的に2段階または1段階のフレームワークを使用する。
2段階のフレームワークでは、マスクジェネレータによって生成されたマスクを使用して画像を複数回トリミングし、続いて特徴抽出を行う。一方、シングルステージのフレームワークは、複数のスタック化されたトランスフォーマーブロックにおいて、自己アテンションとクロスアテンションによる空間位置情報の欠如を補うために、ヘビーウェイトマスクデコーダに依存している。
どちらの手法も計算オーバーヘッドが大きくなり、モデル推論の効率が損なわれる。
効率のギャップを埋めるために,オープンボキャブラリ・パノプティ・セグメンテーション用に設計された新しい単一ステージ,共有,効率的,空間認識のフレームワークであるEOV-Segを提案する。
具体的には、EOV-セグは2つの側面で革新する。
まず,Vocabulary-Aware Selection (VAS)モジュールを提案し,視覚的特徴のセマンティック理解を改善し,マスクデコーダにおける特徴相互作用の負担を軽減する。
第2に、VTベースのCLIPバックボーンの空間認識能力を効率的に活用するTDEE(Two-way Dynamic Embedding Experts)を導入する。
私たちの知る限りでは、EOV-Segは、最先端の手法と比較して高速に動作し、競争力のある性能を実現するための、最初のオープンボキャブラリ・パノプティクス・セグメンテーション・フレームワークである。
具体的には、COCOトレーニングのみで、EOV-SegはADE20Kデータセットで24.2 PQ、31.6 mIoU、12.7 FPSを達成し、EOV-Segの推論時間は最先端の手法の4-21倍である。
特にResNet-50バックボーンを備えたEOV-Segは、RTX 3090 GPUでわずか71Mパラメータの25 FPSで動作する。
コードは \url{https://github.com/nhw649/EOV-Seg} で入手できる。
関連論文リスト
- Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.146292819267956]
大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。
本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文 参考訳(メタデータ) (2023-11-28T06:42:58Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen
Convolutional CLIP [28.103358632241104]
我々は、共有されたFrozen Convolutional CLIPバックボーンを使用して、すべてを単一のステージフレームワークに構築することを提案する。
FC-CLIPは、様々なオープン語彙セマンティックセグメンテーションデータセットにまたがって、最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-08-04T17:59:01Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。