論文の概要: CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.11797v1
- Date: Tue, 21 Mar 2023 12:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 15:05:04.790457
- Title: CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation
- Title(参考訳): CAT-Seg:オープン語彙セマンティックセグメンテーションのコスト集約
- Authors: Seokju Cho, Heeseong Shin, Sunghwan Hong, Seungjun An, Seungjun Lee,
Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim
- Abstract要約: 本稿では,新しいコスト集約手法を用いて,画像テキスト類似度マップ,すなわちコストマップを最適化する代替手法を提案する。
当社のフレームワーク,すなわちCAT-Segは,すべてのベンチマークで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 38.63127343365129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing works on open-vocabulary semantic segmentation have utilized
large-scale vision-language models, such as CLIP, to leverage their exceptional
open-vocabulary recognition capabilities. However, the problem of transferring
these capabilities learned from image-level supervision to the pixel-level task
of segmentation and addressing arbitrary unseen categories at inference makes
this task challenging. To address these issues, we aim to attentively relate
objects within an image to given categories by leveraging relational
information among class categories and visual semantics through aggregation,
while also adapting the CLIP representations to the pixel-level task. However,
we observe that direct optimization of the CLIP embeddings can harm its
open-vocabulary capabilities. In this regard, we propose an alternative
approach to optimize the image-text similarity map, i.e. the cost map, using a
novel cost aggregation-based method. Our framework, namely CAT-Seg, achieves
state-of-the-art performance across all benchmarks. We provide extensive
ablation studies to validate our choices. Project page:
https://ku-cvlab.github.io/CAT-Seg/.
- Abstract(参考訳): オープン語彙セマンティックセグメンテーションに関する既存の研究では、CLIPのような大規模視覚言語モデルを使用して、例外的なオープン語彙認識機能を活用している。
しかしながら、画像レベルの監視からセグメンテーションのピクセルレベルのタスクにこれらの能力を移行し、推論において任意の目に見えないカテゴリに対処するという問題は、このタスクを困難にする。
これらの課題に対処するために,クラスカテゴリと視覚的意味論間の関係情報を活用することにより,画像内のオブジェクトを所定のカテゴリに注意深く関連付けるとともに,CLIP表現をピクセルレベルのタスクに適応させることを目的とする。
しかし、CLIP埋め込みの直接最適化は、そのオープン語彙能力を損なう可能性がある。
本研究では,新しいコスト集約型手法を用いて,画像テキスト類似度マップ,すなわちコストマップを最適化するための代替手法を提案する。
当社のフレームワーク,すなわちCAT-Segは,すべてのベンチマークで最先端のパフォーマンスを実現しています。
我々は選択を検証するために広範なアブレーション研究を行っている。
プロジェクトページ: https://ku-cvlab.github.io/CAT-Seg/。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - DeepCut: Unsupervised Segmentation using Graph Neural Networks
Clustering [6.447863458841379]
本研究では,従来のクラスタリング手法を置き換える軽量グラフニューラルネットワーク(GNN)を提案する。
既存の手法とは異なり、GNNはローカル画像特徴と生特徴とのペアワイズ親和性の両方を入力として取ります。
画像セグメンテーションGNNを訓練するための自己教師付き損失関数として,古典的クラスタリングの目的を定式化する方法を実証する。
論文 参考訳(メタデータ) (2022-12-12T12:31:46Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Contrastive prediction strategies for unsupervised segmentation and
categorization of phonemes and words [9.986028797912788]
コントラスト予測符号化(CPC)に基づく自己教師あり学習法(SSL)における音素分類と音素分類と単語分割の性能について検討する。
実験の結果,既存のアルゴリズムでは分類性能とセグメンテーション性能のトレードオフがあることがわかった。
文脈構築ネットワークの利用は、分類タスクにおける優れたパフォーマンスに必要なものであり、学習された表現に時間的シフトを生じさせることでセグメンテーション性能を損なうと結論付けている。
論文 参考訳(メタデータ) (2021-10-29T16:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。