論文の概要: HierVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment
- arxiv url: http://arxiv.org/abs/2506.13925v1
- Date: Mon, 16 Jun 2025 19:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.216578
- Title: HierVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment
- Title(参考訳): HierVL:動的テキスト空間クエリアライメントを用いた階層型視覚言語構文を利用した半教師付きセグメンテーション
- Authors: Numair Nadeem, Saeed Anwar, Muhammad Hamza Asad, Abdul Bais,
- Abstract要約: 視覚のみの手法は一般化に苦しむため、類似のクラス間の画素ミス分類、一般化の貧弱化、境界ローカライゼーションが生じる。
半教師付きセグメンテーションに適したマスク変換器アーキテクチャに抽象的なテキスト埋め込みを統合することで、このギャップを埋める統合フレームワークであるHierVLを紹介する。
以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを埋め,より粒度の細かいインスタンス認識の一般化を解き放つことが示唆された。
- 参考スコア(独自算出の注目度): 16.926158907882012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised semantic segmentation remains challenging under severe label scarcity and domain variability. Vision-only methods often struggle to generalize, resulting in pixel misclassification between similar classes, poor generalization and boundary localization. Vision-Language Models offer robust, domain-invariant semantics but lack the spatial grounding required for dense prediction. We introduce HierVL, a unified framework that bridges this gap by integrating abstract text embeddings into a mask-transformer architecture tailored for semi-supervised segmentation. HierVL features three novel components: a Hierarchical Semantic Query Generator that filters and projects abstract class embeddings into multi-scale queries to suppress irrelevant classes and handle intra-class variability; a Cross-Modal Spatial Alignment Module that aligns semantic queries with pixel features for sharper boundaries under sparse supervision; and a Dual-Query Transformer Decoder that fuses semantic and instance-level queries to prevent instance collapse. We also introduce targeted regularization losses that maintain vision-language alignment throughout training to reinforce semantic grounding. HierVL establishes a new state-of-the-art by achieving a +4.4% mean improvement of the intersection over the union on COCO (with 232 labeled images), +3.1% on Pascal VOC (with 92 labels), +5.9% on ADE20 (with 158 labels) and +1.8% on Cityscapes (with 100 labels), demonstrating better performance under 1% supervision on four benchmark datasets. Our results show that language-guided segmentation closes the label efficiency gap and unlocks new levels of fine-grained, instance-aware generalization.
- Abstract(参考訳): 半教師付きセマンティックセグメンテーションは、厳密なラベルの不足とドメインの変動の下では困難なままである。
視覚のみの手法は、しばしば一般化に苦しむため、類似のクラス間の画素ミス分類、一般化の低さ、境界ローカライゼーションが生じる。
ビジョンランゲージモデル(Vision-Language Models)は、堅牢でドメイン不変なセマンティクスを提供するが、密接な予測に必要な空間的基盤は欠如している。
半教師付きセグメンテーションに適したマスク変換器アーキテクチャに抽象的なテキスト埋め込みを統合することで、このギャップを埋める統合フレームワークであるHierVLを紹介する。
HierVLには3つの新しいコンポーネントがある: 階層型セマンティッククエリジェネレータ(Hierarchical Semantic Query Generator)は、無関係なクラスを抑えるために抽象クラス埋め込みをマルチスケールのクエリにフィルタし、プロジェクトする。
また,セマンティックグラウンドの強化のために,トレーニング全体を通して視覚言語アライメントを維持するための目標正規化損失も導入する。
HierVLは、COCO(ラベル付き画像232枚)とパスカルVOC(92枚)で+3.1%、ADE20(ラベル付き158枚)で+5.9%、Cityscapes(ラベル付き100枚)で+1.8%を達成し、4つのベンチマークデータセットで1%以下のパフォーマンスを示すことで、新しい最先端技術を確立している。
以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを埋め,より粒度の細かいインスタンス認識の一般化を解き放つことが示唆された。
関連論文リスト
- Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation [6.56750055693609]
作物雑草の細粒化は、精密農業における標的除草剤の応用に不可欠である。
既存のディープラーニングモデルは、データセット固有の視覚的特徴に依存するため、一般化に苦慮している。
この制限に対処する新しいフレームワークであるビジョン・ランゲージ・ウィード(VL-WS)を提案する。
論文 参考訳(メタデータ) (2026-02-27T04:53:18Z) - LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation [12.192429756057132]
Open-vocabulary semantic segmentation (OVSS)は、従来のクローズドセットセマンティックセマンティックセマンティクスを拡張する。
ロゴセグは、(i)グローバルな画像とテキストの類似性を通じて関連カテゴリを動的に重み付けし、幻覚を効果的に低減するオブジェクトの存在、(ii)正確な地域レベルの視覚的テキスト対応を確立する地域対応アライメントモジュール、(iii)ローカルな構造情報とグローバルな意味コンテキストを最適に結合するデュアルストリーム融合機構の3つの重要なイノベーションを統合する。
論文 参考訳(メタデータ) (2026-02-05T12:03:11Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - FedSaaS: Class-Consistency Federated Semantic Segmentation via Global Prototype Supervision and Local Adversarial Harmonization [14.90727017126931]
統合セマンティックセグメンテーションは、協調学習による画像のピクセルレベルの分類を可能にする。
我々は、FedSaaSと呼ばれるクラス一貫性に挑戦する新しいフレームワークを提案する。
本フレームワークは,平均セグメンテーション精度を大幅に向上させ,クラス一貫性表現問題に効果的に対処する。
論文 参考訳(メタデータ) (2025-05-14T13:38:30Z) - LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation [9.759008308251127]
ゼロショット参照画像セグメンテーションは、参照表現に基づいてターゲット領域の特定とセグメンテーションを目的としている。
従来の作業では、ビジョンランゲージモデルとマスク提案ネットワークを領域テキストマッチングに利用することで、この問題に対処している。
本稿では,LGD(Leveraging Generative Descriptions)について述べる。
論文 参考訳(メタデータ) (2025-04-20T02:51:11Z) - Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - 3SHNet: Boosting Image-Sentence Retrieval via Visual Semantic-Spatial Self-Highlighting [12.770499009990864]
本稿では,高精度,高効率,高一般化画像文検索のための視覚的セマンティック・空間自己ハイライトネットワーク(3SHNet)を提案する。
3SHNetは、目立った物体とその空間的位置を視覚的に識別する。
MS-COCOとFlickr30Kベンチマークで実施された実験は、提案した3SHNetの優れた性能、推論効率、一般化を裏付けるものである。
論文 参考訳(メタデータ) (2024-04-26T09:25:18Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - Removing supervision in semantic segmentation with local-global matching
and area balancing [0.0]
我々は,局所的なパッチマッチングを利用した新しいエンドツーエンドモデルを設計し,セマンティックセグメンテーションのためのカテゴリ,優れたローカライゼーション,領域,形状を予測する。
Weakly Supervised Semanticでは画像レベルのラベルが75% mIoU,PascalVOC2012 valセットが75%,MS-COCO2014 valセットが46%であった。
また、PascalVOC2012 val では 43.6% mIoU 、MS-COCO2014 val では 19.4% である。
論文 参考訳(メタデータ) (2023-03-30T14:27:42Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Hierarchical Modular Network for Video Captioning [162.70349114104107]
ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。
提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
論文 参考訳(メタデータ) (2021-11-24T13:07:05Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。