論文の概要: Open-vocabulary Panoptic Segmentation with Embedding Modulation
- arxiv url: http://arxiv.org/abs/2303.11324v2
- Date: Sat, 15 Jul 2023 11:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 22:51:46.166899
- Title: Open-vocabulary Panoptic Segmentation with Embedding Modulation
- Title(参考訳): 埋め込み変調によるオープンボキャブラリパノプティックセグメンテーション
- Authors: Xi Chen, Shuang Li, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao
- Abstract要約: オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
- 参考スコア(独自算出の注目度): 71.15502078615587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary image segmentation is attracting increasing attention due to
its critical applications in the real world. Traditional closed-vocabulary
segmentation methods are not able to characterize novel objects, whereas
several recent open-vocabulary attempts obtain unsatisfactory results, i.e.,
notable performance reduction on the closed vocabulary and massive demand for
extra data. To this end, we propose OPSNet, an omnipotent and data-efficient
framework for Open-vocabulary Panoptic Segmentation. Specifically, the
exquisitely designed Embedding Modulation module, together with several
meticulous components, enables adequate embedding enhancement and information
exchange between the segmentation model and the visual-linguistic well-aligned
CLIP encoder, resulting in superior segmentation performance under both open-
and closed-vocabulary settings with much fewer need of additional data.
Extensive experimental evaluations are conducted across multiple datasets
(e.g., COCO, ADE20K, Cityscapes, and PascalContext) under various
circumstances, where the proposed OPSNet achieves state-of-the-art results,
which demonstrates the effectiveness and generality of the proposed approach.
The code and trained models will be made publicly available.
- Abstract(参考訳): オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズドボキャブラリセグメンテーション法は新規なオブジェクトを特徴づけることができないが、最近のいくつかのオープンボキャブラリ試みは不満足な結果をもたらす。
そこで我々は,open-vocabulary panoptic segmentationのための全能性とデータ効率のよいフレームワークopsnetを提案する。
特に、精巧に設計された埋め込み変調モジュールは、いくつかの注意深いコンポーネントと共に、セグメンテーションモデルと視覚的に言語性の良いクリップエンコーダとの間の適切な埋め込み拡張および情報交換を可能にし、より少ない追加データで、オープンおよびクローズドボキャブラリー設定下でのセグメンテーション性能を向上させる。
様々な状況下で複数のデータセット(COCO,ADE20K,Cityscapes,PascalContextなど)で大規模な実験評価を行い,提案手法の有効性と汎用性を実証した。
コードとトレーニングされたモデルは公開されます。
関連論文リスト
- kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies [22.51592283786031]
kNN-CLIPは連続セグメンテーションのためのトレーニング不要の戦略である。
再トレーニングや大きなメモリコストを必要とせずに、継続的に成長する語彙に適応することができる。
大語彙セマンティクスとパノプティクスセグメンテーションデータセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-15T04:20:01Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。
提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2022-07-13T14:41:05Z) - Generalizing Interactive Backpropagating Refinement for Dense Prediction [0.0]
本稿では,G-BRSレイヤの集合を導入し,グローバル・ローカライズド・リファインメントとローカライズド・リファインメントの両立を可能にした。
提案手法は,数クリックで既存の事前訓練された最先端モデルの性能を向上する。
論文 参考訳(メタデータ) (2021-12-21T03:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。