論文の概要: ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency
- arxiv url: http://arxiv.org/abs/2302.10307v1
- Date: Tue, 31 Jan 2023 01:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 14:18:25.466311
- Title: ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency
- Title(参考訳): ViewCo:マルチビューセマンティック一貫性によるテキストスーパービジョンセグメンテーションマスクの発見
- Authors: Pengzhen Ren, Changlin Li, Hang Xu, Yi Zhu, Guangrun Wang, Jianzhuang
Liu, Xiaojun Chang, Xiaodan Liang
- Abstract要約: テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
- 参考スコア(独自算出の注目度): 126.88107868670767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, great success has been made in learning visual representations from
text supervision, facilitating the emergence of text-supervised semantic
segmentation. However, existing works focus on pixel grouping and cross-modal
semantic alignment, while ignoring the correspondence among multiple augmented
views of the same image. To overcome such limitation, we propose
multi-\textbf{View} \textbf{Co}nsistent learning (ViewCo) for text-supervised
semantic segmentation. Specifically, we first propose text-to-views consistency
modeling to learn correspondence for multiple views of the same input image.
Additionally, we propose cross-view segmentation consistency modeling to
address the ambiguity issue of text supervision by contrasting the segment
features of Siamese visual encoders. The text-to-views consistency benefits the
dense assignment of the visual features by encouraging different crops to align
with the same text, while the cross-view segmentation consistency modeling
provides additional self-supervision, overcoming the limitation of ambiguous
text supervision for segmentation masks. Trained with large-scale image-text
data, our model can directly segment objects of arbitrary categories in a
zero-shot manner. Extensive experiments show that ViewCo outperforms
state-of-the-art methods on average by up to 2.9\%, 1.6\%, and 2.4\% mIoU on
PASCAL VOC2012, PASCAL Context, and COCO, respectively.
- Abstract(参考訳): 近年,テキストによるセマンティックセグメンテーションの出現を助長し,テキスト管理から視覚表現を学ぶことに成功している。
しかし、既存の作品はピクセルのグルーピングとクロスモーダルなセマンティクスアライメントにフォーカスしているが、同じ画像の複数の拡張ビュー間の対応は無視している。
このような制限を克服するため,テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbf{View} \textbf{Co}sistent Learning (ViewCo)を提案する。
具体的には、まず、同一入力画像の複数のビューの対応を学習するために、テキスト間一貫性モデリングを提案する。
さらに、シームズ視覚エンコーダのセグメント特徴を対比することにより、テキスト監督のあいまいさ問題に対処するクロスビューセグメンテーション整合性モデリングを提案する。
テキスト・ツー・ビューの一貫性は、異なる作物を同じテキストに合わせるように促すことで、視覚的な特徴の密集した割り当ての恩恵を受ける一方で、クロスビューのセグメンテーションの一貫性モデリングは、セグメンテーションマスクの曖昧なテキスト監督の限界を克服する追加の自己スーパービジョンを提供する。
大規模画像テキストデータを用いてトレーニングすることで,任意のカテゴリのオブジェクトを直接ゼロショットでセグメンテーションすることができる。
大規模な実験により、ViewCoはPASCAL VOC2012、PASCAL Context、COCOで平均2.9 %、1.6 %、2.4 % mIoUを平均で上回っている。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。
既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。
テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文 参考訳(メタデータ) (2024-04-05T17:25:17Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Weakly-Supervised Text Instance Segmentation [44.20745377169349]
テキスト認識とテキストセグメンテーションをブリッジすることで、弱教師付きテキストインスタンスセグメンテーションを初めて実施する。
提案手法は, ICDAR13-FST(18.95$%$改善)ベンチマークとTextSeg (17.80$%$改善)ベンチマークにおいて, 弱教師付きインスタンスセグメンテーション法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-20T03:56:47Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。