論文の概要: Language-driven Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2201.03546v1
- Date: Mon, 10 Jan 2022 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 14:22:17.798918
- Title: Language-driven Semantic Segmentation
- Title(参考訳): 言語駆動セマンティックセグメンテーション
- Authors: Boyi Li and Kilian Q. Weinberger and Serge Belongie and Vladlen Koltun
and Ren\'e Ranftl
- Abstract要約: 本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
- 参考スコア(独自算出の注目度): 88.21498323896475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LSeg, a novel model for language-driven semantic image
segmentation. LSeg uses a text encoder to compute embeddings of descriptive
input labels (e.g., "grass" or "building") together with a transformer-based
image encoder that computes dense per-pixel embeddings of the input image. The
image encoder is trained with a contrastive objective to align pixel embeddings
to the text embedding of the corresponding semantic class. The text embeddings
provide a flexible label representation in which semantically similar labels
map to similar regions in the embedding space (e.g., "cat" and "furry"). This
allows LSeg to generalize to previously unseen categories at test time, without
retraining or even requiring a single additional training sample. We
demonstrate that our approach achieves highly competitive zero-shot performance
compared to existing zero- and few-shot semantic segmentation methods, and even
matches the accuracy of traditional segmentation algorithms when a fixed label
set is provided. Code and demo are available at
https://github.com/isl-org/lang-seg.
- Abstract(参考訳): 本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
LSegはテキストエンコーダを使用して、記述的な入力ラベル(例えば「グラス」や「ビルディング」)の埋め込みを、入力画像のピクセルあたりの密度の高い埋め込みを計算するトランスフォーマーベースのイメージエンコーダと共に計算する。
画像エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
テキスト埋め込みは、意味的に類似したラベルが埋め込み空間の類似領域(例えば「キャット」と「ファーリー」)にマップされる柔軟なラベル表現を提供する。
これによりlsegは、再トレーニングや追加のトレーニングサンプルを1つも必要とせずに、テスト時にそれまで見つからなかったカテゴリに一般化することができる。
提案手法は,既存のゼロショットセグメンテーション法や少数ショットセグメンテーション法に比べ,高い競合性を持つゼロショットセグメンテーション性能を達成し,固定ラベルセットが提供された場合の従来のセグメンテーションアルゴリズムの精度にも適合することを示す。
コードとデモはhttps://github.com/isl-org/lang-segで入手できる。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - SIGN: Spatial-information Incorporated Generative Network for
Generalized Zero-shot Semantic Segmentation [22.718908677552196]
ゼロショットセマンティックセグメンテーションは、画像レベルの代わりにピクセルレベルでクラスラベルを予測する。
Relative Positionalは特徴レベルで空間情報を統合し、任意の画像サイズを処理できる。
Anneal Self-Trainingは、自動的に異なる重要性を擬似ラベルに割り当てる。
論文 参考訳(メタデータ) (2021-08-27T22:18:24Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Universal Weakly Supervised Segmentation by Pixel-to-Segment Contrastive
Learning [28.498782661888775]
半教師付きメトリック学習問題として弱教師付きセグメンテーションを定式化する。
特徴空間における画素とセグメント間のコントラスト関係を4種類提案する。
我々はPascal VOCとDensePoseに大きな利益をもたらす、普遍的な弱教師付きセグメンタを提供する。
論文 参考訳(メタデータ) (2021-05-03T15:49:01Z) - From Pixel to Patch: Synthesize Context-aware Features for Zero-shot
Semantic Segmentation [22.88452754438478]
ゼロショットセマンティックセマンティックセマンティックセマンティクスは,カテゴリレベルのセマンティクスのみを持つ未確認オブジェクトのセマンティクスを目的としたセマンティクスである。
本研究では,コンテキスト認識機能生成ネットワーク(CaGNet)を提案する。
Pascal-VOC, Pascal-Context, COCO-stuff の実験結果から,本手法は既存のゼロショットセマンティックセマンティックセグメンテーション法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2020-09-25T13:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。