論文の概要: IFSeg: Image-free Semantic Segmentation via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2303.14396v1
- Date: Sat, 25 Mar 2023 08:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:02:06.191372
- Title: IFSeg: Image-free Semantic Segmentation via Vision-Language Model
- Title(参考訳): ifseg:視覚言語モデルによる画像なし意味セグメンテーション
- Authors: Sukmin Yun, Seong Hyeon Park, Paul Hongsuck Seo, Jinwoo Shin
- Abstract要約: 目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
- 参考スコア(独自算出の注目度): 67.62922228676273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language (VL) pre-training has recently gained much attention for its
transferability and flexibility in novel concepts (e.g., cross-modality
transfer) across various visual tasks. However, VL-driven segmentation has been
under-explored, and the existing approaches still have the burden of acquiring
additional training images or even segmentation annotations to adapt a VL model
to downstream segmentation tasks. In this paper, we introduce a novel
image-free segmentation task where the goal is to perform semantic segmentation
given only a set of the target semantic categories, but without any
task-specific images and annotations. To tackle this challenging task, our
proposed method, coined IFSeg, generates VL-driven artificial
image-segmentation pairs and updates a pre-trained VL model to a segmentation
task. We construct this artificial training data by creating a 2D map of random
semantic categories and another map of their corresponding word tokens. Given
that a pre-trained VL model projects visual and text tokens into a common space
where tokens that share the semantics are located closely, this artificially
generated word map can replace the real image inputs for such a VL model.
Through an extensive set of experiments, our model not only establishes an
effective baseline for this novel task but also demonstrates strong
performances compared to existing methods that rely on stronger supervision,
such as task-specific images and segmentation masks. Code is available at
https://github.com/alinlab/ifseg.
- Abstract(参考訳): 視覚言語(vl)の事前学習は、様々な視覚タスクにまたがる新しい概念(例えば、クロスモダリティ転送)の伝達可能性と柔軟性により、最近多くの注目を集めている。
しかしながら、VL駆動セグメンテーションは未探索であり、既存のアプローチでは、VLモデルを下流セグメンテーションタスクに適応させるために、追加のトレーニングイメージやセグメンテーションアノテーションを取得することの負担がまだある。
本稿では,目的とする意味カテゴリーの組のみに対して意味セグメンテーションを行うことを目標とし,タスク固有の画像やアノテーションを必要とせず,意味セグメンテーションを行うことを目標とする,イメージフリーセグメンテーションタスクを提案する。
この課題に対処するため、提案手法はFSegと呼ばれ、VL駆動の人工画像分割ペアを生成し、事前学習されたVLモデルをセグメンテーションタスクに更新する。
この人工学習データをランダム意味カテゴリーの2次元マップと対応する単語トークンの別のマップを作成することにより構築する。
事前訓練されたVLモデルは、意味を共有するトークンが密接な位置にある共通空間に視覚的およびテキストトークンを投影するので、この人工的に生成されたワードマップは、そのようなVLモデルの実際の画像入力を置き換えることができる。
広範な実験を通じて,本モデルは,この課題に対して有効なベースラインを確立するだけでなく,タスク固有の画像やセグメンテーションマスクといった,より強い監督に依存する既存の手法と比較して,強力な性能を示す。
コードはhttps://github.com/alinlab/ifsegで入手できる。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene [8.357801312689622]
本稿ではセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
我々は,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するために,コントラスト学習の変種を用いてDCNNモデルを訓練する。
提案手法は、ImageNetで事前訓練されたモデルよりも優れており、全く同じタスクでトレーニングされたモデルと異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-04T20:10:14Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。