論文の概要: Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision
- arxiv url: http://arxiv.org/abs/2403.03707v1
- Date: Wed, 6 Mar 2024 13:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:53:38.650509
- Title: Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision
- Title(参考訳): テキスト監督からオープンボキャブラリー意味セグメンテーションを学ぶための多項目クロスモーダルアライメント
- Authors: Yajie Liu, Pu Ge, Qingjie Liu, Di Huang
- Abstract要約: 我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
- 参考スコア(独自算出の注目度): 23.931443799102663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, learning open-vocabulary semantic segmentation from text
supervision has achieved promising downstream performance. Nevertheless,
current approaches encounter an alignment granularity gap owing to the absence
of dense annotations, wherein they learn coarse image/region-text alignment
during training yet perform group/pixel-level predictions at inference. Such
discrepancy leads to suboptimal learning efficiency and inferior zero-shot
segmentation results. In this paper, we introduce a Multi-Grained Cross-modal
Alignment (MGCA) framework, which explicitly learns pixel-level alignment along
with object- and region-level alignment to bridge the granularity gap without
any dense annotations. Specifically, MGCA ingeniously constructs pseudo
multi-granular semantic correspondences upon image-text pairs and collaborates
with hard sampling strategies to facilitate fine-grained cross-modal
contrastive learning. Further, we point out the defects of existing group and
pixel prediction units in downstream segmentation and develop an adaptive
semantic unit which effectively mitigates their dilemmas including under- and
over-segmentation. Training solely on CC3M, our method achieves significant
advancements over state-of-the-art methods, demonstrating its effectiveness and
efficiency.
- Abstract(参考訳): 近年,テキスト監督からオープンボキャブラリー意味セグメンテーションを学ぶことで,下流性能が期待できる。
それにもかかわらず、現在のアプローチでは、密集アノテーションがないためにアライメントの粒度ギャップに遭遇し、トレーニング中に粗い画像/領域テキストアライメントを学習し、推論時にグループ/ピクセルレベルの予測を行う。
このような不一致は、最適学習効率と劣等なゼロショットセグメンテーション結果をもたらす。
本稿では,ピクセルレベルアライメントとオブジェクトレベルアライメント,領域レベルのアライメントを明示的に学習し,粒度ギャップを密なアノテーションなしで橋渡しする多粒度クロスモーダルアライメント(mgca)フレームワークを提案する。
具体的には、MGCAは画像テキストペアに擬似多粒性意味対応を巧みに構築し、きめ細かいクロスモーダルコントラスト学習を容易にするハードサンプリング戦略と協調する。
さらに、下流セグメンテーションにおける既存のグループと画素予測ユニットの欠陥を指摘し、アンダーセグメンテーションやオーバーセグメンテーションを含むジレンマを効果的に軽減する適応意味ユニットを開発する。
本手法は, CC3Mのみを基礎として, 最先端手法の大幅な進歩を実現し, その有効性と効率を実証する。
関連論文リスト
- DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Contextrast: Contextual Contrastive Learning for Semantic Segmentation [9.051352746190448]
コントラスト学習に基づくセマンティックセグメンテーション手法であるContextrastを提案する。
提案手法は,文脈コントラスト学習 (CCL) と境界認識型負サンプリング (B) の2つの部分からなる。
我々のContextrastはセマンティックセグメンテーションネットワークの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-04-16T15:04:55Z) - Associating Spatially-Consistent Grouping with Text-supervised Semantic
Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。
部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。
59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-04-03T16:24:39Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z) - Margin Preserving Self-paced Contrastive Learning Towards Domain
Adaptation for Medical Image Segmentation [51.93711960601973]
クロスモーダル医療画像セグメンテーションのための自己ペースコントラスト学習モデルを保存する新しいマージンを提案する。
プログレッシブに洗練されたセマンティックプロトタイプの指導により、埋め込み表現空間の識別性を高めるために、コントラスト損失を減少させる新しいマージンが提案される。
クロスモーダル心セグメンテーションタスクの実験は、MPSCLが意味セグメンテーション性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-03-15T15:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。