Fugu-MT 論文翻訳(概要): Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

論文の概要: Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

arxiv url: http://arxiv.org/abs/2403.03707v1
Date: Wed, 6 Mar 2024 13:43:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 14:53:38.650509
Title: Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision
Title（参考訳）: テキスト監督からオープンボキャブラリー意味セグメンテーションを学ぶための多項目クロスモーダルアライメント
Authors: Yajie Liu, Pu Ge, Qingjie Liu, Di Huang
Abstract要約: 我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
参考スコア（独自算出の注目度）: 23.931443799102663
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, learning open-vocabulary semantic segmentation from text supervision has achieved promising downstream performance. Nevertheless, current approaches encounter an alignment granularity gap owing to the absence of dense annotations, wherein they learn coarse image/region-text alignment during training yet perform group/pixel-level predictions at inference. Such discrepancy leads to suboptimal learning efficiency and inferior zero-shot segmentation results. In this paper, we introduce a Multi-Grained Cross-modal Alignment (MGCA) framework, which explicitly learns pixel-level alignment along with object- and region-level alignment to bridge the granularity gap without any dense annotations. Specifically, MGCA ingeniously constructs pseudo multi-granular semantic correspondences upon image-text pairs and collaborates with hard sampling strategies to facilitate fine-grained cross-modal contrastive learning. Further, we point out the defects of existing group and pixel prediction units in downstream segmentation and develop an adaptive semantic unit which effectively mitigates their dilemmas including under- and over-segmentation. Training solely on CC3M, our method achieves significant advancements over state-of-the-art methods, demonstrating its effectiveness and efficiency.
Abstract（参考訳）: 近年,テキスト監督からオープンボキャブラリー意味セグメンテーションを学ぶことで,下流性能が期待できる。それにもかかわらず、現在のアプローチでは、密集アノテーションがないためにアライメントの粒度ギャップに遭遇し、トレーニング中に粗い画像/領域テキストアライメントを学習し、推論時にグループ/ピクセルレベルの予測を行う。このような不一致は、最適学習効率と劣等なゼロショットセグメンテーション結果をもたらす。本稿では,ピクセルレベルアライメントとオブジェクトレベルアライメント,領域レベルのアライメントを明示的に学習し,粒度ギャップを密なアノテーションなしで橋渡しする多粒度クロスモーダルアライメント(mgca)フレームワークを提案する。具体的には、MGCAは画像テキストペアに擬似多粒性意味対応を巧みに構築し、きめ細かいクロスモーダルコントラスト学習を容易にするハードサンプリング戦略と協調する。さらに、下流セグメンテーションにおける既存のグループと画素予測ユニットの欠陥を指摘し、アンダーセグメンテーションやオーバーセグメンテーションを含むジレンマを効果的に軽減する適応意味ユニットを開発する。本手法は, CC3Mのみを基礎として, 最先端手法の大幅な進歩を実現し, その有効性と効率を実証する。

関連論文リスト

Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。既存のSHGLメソッドには2つの大きな制限がある。ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-12-01T09:33:20Z)
DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。 DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文参考訳（メタデータ） (2024-09-24T06:51:49Z)
Contextrast: Contextual Contrastive Learning for Semantic Segmentation [9.051352746190448]
コントラスト学習に基づくセマンティックセグメンテーション手法であるContextrastを提案する。提案手法は,文脈コントラスト学習 (CCL) と境界認識型負サンプリング (B) の2つの部分からなる。我々のContextrastはセマンティックセグメンテーションネットワークの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-04-16T15:04:55Z)
Associating Spatially-Consistent Grouping with Text-supervised Semantic Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。 59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文参考訳（メタデータ） (2023-04-03T16:24:39Z)
CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文参考訳（メタデータ） (2023-03-21T12:28:21Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。 ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文参考訳（メタデータ） (2021-08-16T13:16:58Z)
Margin Preserving Self-paced Contrastive Learning Towards Domain Adaptation for Medical Image Segmentation [51.93711960601973]
クロスモーダル医療画像セグメンテーションのための自己ペースコントラスト学習モデルを保存する新しいマージンを提案する。プログレッシブに洗練されたセマンティックプロトタイプの指導により、埋め込み表現空間の識別性を高めるために、コントラスト損失を減少させる新しいマージンが提案される。クロスモーダル心セグメンテーションタスクの実験は、MPSCLが意味セグメンテーション性能を大幅に改善することを示した。
論文参考訳（メタデータ） (2021-03-15T15:23:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。