Fugu-MT 論文翻訳(概要): HierVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment

論文の概要: HierVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment

arxiv url: http://arxiv.org/abs/2506.13925v1
Date: Mon, 16 Jun 2025 19:05:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.216578
Title: HierVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment
Title（参考訳）: HierVL:動的テキスト空間クエリアライメントを用いた階層型視覚言語構文を利用した半教師付きセグメンテーション
Authors: Numair Nadeem, Saeed Anwar, Muhammad Hamza Asad, Abdul Bais,
Abstract要約: 視覚のみの手法は一般化に苦しむため、類似のクラス間の画素ミス分類、一般化の貧弱化、境界ローカライゼーションが生じる。半教師付きセグメンテーションに適したマスク変換器アーキテクチャに抽象的なテキスト埋め込みを統合することで、このギャップを埋める統合フレームワークであるHierVLを紹介する。以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを埋め,より粒度の細かいインスタンス認識の一般化を解き放つことが示唆された。
参考スコア（独自算出の注目度）: 16.926158907882012
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semi-supervised semantic segmentation remains challenging under severe label scarcity and domain variability. Vision-only methods often struggle to generalize, resulting in pixel misclassification between similar classes, poor generalization and boundary localization. Vision-Language Models offer robust, domain-invariant semantics but lack the spatial grounding required for dense prediction. We introduce HierVL, a unified framework that bridges this gap by integrating abstract text embeddings into a mask-transformer architecture tailored for semi-supervised segmentation. HierVL features three novel components: a Hierarchical Semantic Query Generator that filters and projects abstract class embeddings into multi-scale queries to suppress irrelevant classes and handle intra-class variability; a Cross-Modal Spatial Alignment Module that aligns semantic queries with pixel features for sharper boundaries under sparse supervision; and a Dual-Query Transformer Decoder that fuses semantic and instance-level queries to prevent instance collapse. We also introduce targeted regularization losses that maintain vision-language alignment throughout training to reinforce semantic grounding. HierVL establishes a new state-of-the-art by achieving a +4.4% mean improvement of the intersection over the union on COCO (with 232 labeled images), +3.1% on Pascal VOC (with 92 labels), +5.9% on ADE20 (with 158 labels) and +1.8% on Cityscapes (with 100 labels), demonstrating better performance under 1% supervision on four benchmark datasets. Our results show that language-guided segmentation closes the label efficiency gap and unlocks new levels of fine-grained, instance-aware generalization.
Abstract（参考訳）: 半教師付きセマンティックセグメンテーションは、厳密なラベルの不足とドメインの変動の下では困難なままである。視覚のみの手法は、しばしば一般化に苦しむため、類似のクラス間の画素ミス分類、一般化の低さ、境界ローカライゼーションが生じる。ビジョンランゲージモデル(Vision-Language Models)は、堅牢でドメイン不変なセマンティクスを提供するが、密接な予測に必要な空間的基盤は欠如している。半教師付きセグメンテーションに適したマスク変換器アーキテクチャに抽象的なテキスト埋め込みを統合することで、このギャップを埋める統合フレームワークであるHierVLを紹介する。 HierVLには3つの新しいコンポーネントがある: 階層型セマンティッククエリジェネレータ(Hierarchical Semantic Query Generator)は、無関係なクラスを抑えるために抽象クラス埋め込みをマルチスケールのクエリにフィルタし、プロジェクトする。また,セマンティックグラウンドの強化のために,トレーニング全体を通して視覚言語アライメントを維持するための目標正規化損失も導入する。 HierVLは、COCO(ラベル付き画像232枚)とパスカルVOC(92枚)で+3.1%、ADE20(ラベル付き158枚)で+5.9%、Cityscapes(ラベル付き100枚)で+1.8%を達成し、4つのベンチマークデータセットで1%以下のパフォーマンスを示すことで、新しい最先端技術を確立している。以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを埋め,より粒度の細かいインスタンス認識の一般化を解き放つことが示唆された。

関連論文リスト

FedSaaS: Class-Consistency Federated Semantic Segmentation via Global Prototype Supervision and Local Adversarial Harmonization [14.90727017126931]
統合セマンティックセグメンテーションは、協調学習による画像のピクセルレベルの分類を可能にする。我々は、FedSaaSと呼ばれるクラス一貫性に挑戦する新しいフレームワークを提案する。本フレームワークは,平均セグメンテーション精度を大幅に向上させ,クラス一貫性表現問題に効果的に対処する。
論文参考訳（メタデータ） (2025-05-14T13:38:30Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
A Lightweight Clustering Framework for Unsupervised Semantic Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文参考訳（メタデータ） (2023-11-30T15:33:42Z)
SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。 4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文参考訳（メタデータ） (2023-11-27T19:00:06Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
Removing supervision in semantic segmentation with local-global matching and area balancing [0.0]
我々は,局所的なパッチマッチングを利用した新しいエンドツーエンドモデルを設計し,セマンティックセグメンテーションのためのカテゴリ,優れたローカライゼーション,領域,形状を予測する。 Weakly Supervised Semanticでは画像レベルのラベルが75% mIoU,PascalVOC2012 valセットが75%,MS-COCO2014 valセットが46%であった。また、PascalVOC2012 val では 43.6% mIoU 、MS-COCO2014 val では 19.4% である。
論文参考訳（メタデータ） (2023-03-30T14:27:42Z)
Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。 HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文参考訳（メタデータ） (2022-03-27T15:47:44Z)
Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文参考訳（メタデータ） (2022-02-04T07:19:09Z)
HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。 4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文参考訳（メタデータ） (2021-09-30T14:27:50Z)
Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文参考訳（メタデータ） (2021-08-14T13:33:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。