Fugu-MT 論文翻訳(概要): CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

論文の概要: CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

arxiv url: http://arxiv.org/abs/2303.11797v1
Date: Tue, 21 Mar 2023 12:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 15:05:04.790457
Title: CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation
Title（参考訳）: CAT-Seg:オープン語彙セマンティックセグメンテーションのコスト集約
Authors: Seokju Cho, Heeseong Shin, Sunghwan Hong, Seungjun An, Seungjun Lee, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim
Abstract要約: 本稿では,新しいコスト集約手法を用いて,画像テキスト類似度マップ,すなわちコストマップを最適化する代替手法を提案する。当社のフレームワーク,すなわちCAT-Segは,すべてのベンチマークで最先端のパフォーマンスを実現しています。
参考スコア（独自算出の注目度）: 38.63127343365129
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing works on open-vocabulary semantic segmentation have utilized large-scale vision-language models, such as CLIP, to leverage their exceptional open-vocabulary recognition capabilities. However, the problem of transferring these capabilities learned from image-level supervision to the pixel-level task of segmentation and addressing arbitrary unseen categories at inference makes this task challenging. To address these issues, we aim to attentively relate objects within an image to given categories by leveraging relational information among class categories and visual semantics through aggregation, while also adapting the CLIP representations to the pixel-level task. However, we observe that direct optimization of the CLIP embeddings can harm its open-vocabulary capabilities. In this regard, we propose an alternative approach to optimize the image-text similarity map, i.e. the cost map, using a novel cost aggregation-based method. Our framework, namely CAT-Seg, achieves state-of-the-art performance across all benchmarks. We provide extensive ablation studies to validate our choices. Project page: https://ku-cvlab.github.io/CAT-Seg/.
Abstract（参考訳）: オープン語彙セマンティックセグメンテーションに関する既存の研究では、CLIPのような大規模視覚言語モデルを使用して、例外的なオープン語彙認識機能を活用している。しかしながら、画像レベルの監視からセグメンテーションのピクセルレベルのタスクにこれらの能力を移行し、推論において任意の目に見えないカテゴリに対処するという問題は、このタスクを困難にする。これらの課題に対処するために,クラスカテゴリと視覚的意味論間の関係情報を活用することにより,画像内のオブジェクトを所定のカテゴリに注意深く関連付けるとともに,CLIP表現をピクセルレベルのタスクに適応させることを目的とする。しかし、CLIP埋め込みの直接最適化は、そのオープン語彙能力を損なう可能性がある。本研究では,新しいコスト集約型手法を用いて,画像テキスト類似度マップ,すなわちコストマップを最適化するための代替手法を提案する。当社のフレームワーク,すなわちCAT-Segは,すべてのベンチマークで最先端のパフォーマンスを実現しています。我々は選択を検証するために広範なアブレーション研究を行っている。プロジェクトページ: https://ku-cvlab.github.io/CAT-Seg/。

関連論文リスト

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation [16.64056234334767]
Open-vocabulary semantic segmentationは、画像をピクセルレベルで異なる意味領域に分割することを目的としている。現在の方法は、CLIPのような訓練済みの視覚言語モデルのテキスト埋め込みを利用する。本稿では,この課題に対する二重プロンプトフレームワークDPSegを提案する。
論文参考訳（メタデータ） (2025-05-16T20:25:42Z)
SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文参考訳（メタデータ） (2025-01-27T13:07:51Z)
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
A Simple Image Segmentation Framework via In-Context Examples [59.319920526160466]
本稿では,テキスト内例を利用したシンプルな画像フレームワークであるSINEを提案する。 In-context Interactionモジュールを導入し、インコンテキスト情報を補完し、ターゲット画像とインコンテキストの例との相関関係を生成する。様々なセグメンテーションタスクの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-07T08:59:05Z)
Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2024-07-14T15:02:54Z)
Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文参考訳（メタデータ） (2024-04-05T17:25:17Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文参考訳（メタデータ） (2024-03-06T13:43:36Z)
Language-guided Few-shot Semantic Segmentation [23.46604057006498]
そこで本稿では,言語情報のみを用いたセマンティックセマンティックセグメンテーションの課題に対処する革新的な手法を提案する。提案手法は,テキストプロンプトから高品質な擬似セマンティックマスクを生成する,視覚言語によるマスク蒸留方式である。 2つのベンチマークデータセットを用いた実験により,言語誘導型少数ショットセマンティックセマンティックセグメンテーションの新たなベースラインが確立された。
論文参考訳（メタデータ） (2023-11-23T09:08:49Z)
ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文参考訳（メタデータ） (2023-01-31T01:57:52Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。