論文の概要: Open-Vocabulary Image Segmentation
- arxiv url: http://arxiv.org/abs/2112.12143v1
- Date: Wed, 22 Dec 2021 18:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 16:00:05.946872
- Title: Open-Vocabulary Image Segmentation
- Title(参考訳): Open-Vocabulary Image Segmentation
- Authors: Golnaz Ghiasi, Xiuye Gu, Yin Cui, Tsung-Yi Lin
- Abstract要約: 任意のテキストで示される意味のある領域にイメージを整理するオープン語彙画像分割モデルを設計する。
これらのモデルは、視覚的セマンティックアライメントを学ぶ前に、ピクセルをグループにまとめる視覚的グループ化の重要なステップを欠いている、と我々は主張する。
私たちの仕事は、ホールドアウトセグメンテーションデータセットでゼロショット転送を実行する最初のものです。
- 参考スコア(独自算出の注目度): 36.5086895686526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We design an open-vocabulary image segmentation model to organize an image
into meaningful regions indicated by arbitrary texts. We identify that recent
open-vocabulary models can not localize visual concepts well despite
recognizing what are in an image. We argue that these models miss an important
step of visual grouping, which organizes pixels into groups before learning
visual-semantic alignments. We propose OpenSeg to address the above issue.
First, it learns to propose segmentation masks for possible organizations. Then
it learns visual-semantic alignments by aligning each word in a caption to one
or a few predicted masks. We find the mask representations are the key to
support learning from captions, making it possible to scale up the dataset and
vocabulary sizes. Our work is the first to perform zero-shot transfer on
holdout segmentation datasets. We set up two strong baselines by applying class
activation maps or fine-tuning with pixel-wise labels on a pre-trained ALIGN
model. OpenSeg outperforms these baselines by 3.4 mIoU on PASCAL-Context (459
classes) and 2.7 mIoU on ADE-20k (847 classes).
- Abstract(参考訳): 任意のテキストで示される意味のある領域にイメージを整理するオープン語彙画像分割モデルを設計する。
近年のオープンボキャブラリモデルでは,画像中のものを認識しても,視覚概念を十分にローカライズできないことが判明した。
我々は、これらのモデルは視覚的なグループ化の重要なステップを見逃していると主張している。
上記の問題に対処するためにOpenSegを提案する。
まず、組織のためにセグメンテーションマスクを提案することを学ぶ。
そして、キャプション中の各単語を1つまたは複数の予測マスクに合わせることにより、視覚的なアライメントを学ぶ。
マスク表現は、キャプションからの学習をサポートするキーであり、データセットと語彙サイズをスケールアップすることを可能にする。
当社の作業は、ホールドアウトセグメンテーションデータセットでゼロショット転送を行う最初の作業です。
事前学習されたALIGNモデル上で,クラスアクティベーションマップを適用したり,ピクセルワイズラベルを微調整することで,2つの強いベースラインを設定した。
OpenSegはPASCAL-Contextでは3.4 mIoU(459クラス)、ADE-20kでは2.7 mIoU(847クラス)でこれらのベースラインを上回っている。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - GroupViT: Semantic Segmentation Emerges from Text Supervision [82.02467579704091]
グループ化と認識は視覚的シーン理解の重要な構成要素である。
階層型グループ視覚変換器(GroupViT)を提案する。
GroupViTはセマンティック領域をグループ化し、セマンティックセグメンテーションのタスクにゼロショットで転送する。
論文 参考訳(メタデータ) (2022-02-22T18:56:04Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。