論文の概要: HVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment
- arxiv url: http://arxiv.org/abs/2506.13925v2
- Date: Wed, 13 Aug 2025 07:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.595249
- Title: HVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment
- Title(参考訳): HVL:動的テキスト空間クエリアライメントを用いた階層型視覚言語構文を利用した半教師付きセグメンテーション
- Authors: Numair Nadeem, Saeed Anwar, Muhammad Hamza Asad, Abdul Bais,
- Abstract要約: 本稿では,変圧器を用いたセグメンテーションネットワークにおいて,ドメイン不変のテキスト埋め込みをオブジェクトクエリとして統合する統合型ビジョン・ランゲージフレームワークを提案する。
以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを橋渡しし,より詳細な一般化を可能にした。
- 参考スコア(独自算出の注目度): 16.926158907882012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address Semi-supervised Semantic Segmentation (SSS) under domain shift by leveraging domain-invariant semantic knowledge from text embeddings of Vision-Language Models (VLMs). We propose a unified Hierarchical Vision-Language framework (HVL) that integrates domain-invariant text embeddings as object queries in a transformer-based segmentation network to improve generalization and reduce misclassification under limited supervision. The mentioned textual queries are used for grouping pixels with shared semantics under SSS. HVL is designed to (1) generate textual queries that maximally encode domain-invariant semantics from VLM while capturing intra-class variations; (2) align these queries with spatial visual features to enhance their segmentation ability and improve the semantic clarity of visual features. We also introduce targeted regularization losses that maintain vision--language alignment throughout training to reinforce semantic understanding. HVL establishes a novel state-of-the-art by achieving a +9.3% improvement in mean Intersection over Union (mIoU) on COCO, utilizing 232 labelled images, +3.1% on Pascal VOC employing 92 labels, +4.8% on ADE20 using 316 labels, and +3.4% on Cityscapes with 100 labels, demonstrating superior performance with less than 1% supervision on four benchmark datasets. Our results show that language-guided segmentation bridges the label efficiency gap and enables new levels of fine-grained generalization.
- Abstract(参考訳): 本稿では、視覚言語モデル(VLM)のテキスト埋め込みからドメイン不変の意味知識を活用することにより、ドメインシフト下での半教師付きセマンティックセマンティックセマンティックセマンティクス(SSS)に対処する。
本稿では,ドメイン不変テキスト埋め込みをオブジェクトクエリとしてオブジェクトクエリとして統合した階層型視覚言語フレームワーク(HVL)を提案する。
上述のテキストクエリは、SSSの下で共有セマンティクスを持つピクセルをグループ化するために使用される。
HVL は,(1) VLM からドメイン不変セマンティクスを最大エンコードし,クラス内変動を捉えながらテキストクエリを生成するように設計されている。
また、意味理解を強化するために、トレーニング全体を通して視覚的アライメントを維持するための目標正規化損失も導入する。
HVLは、COCO上での平均的連合間(mIoU)を+9.3%改善し、232のラベル付き画像を使用し、パスカルVOCでは+3.1%、ADE20では+4.8%、シティスケープでは+3.4%、100のラベルを持つ。
以上の結果から,言語誘導セグメンテーションはラベル効率ギャップを橋渡しし,より微細な一般化を可能にした。
関連論文リスト
- Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation [6.56750055693609]
作物雑草の細粒化は、精密農業における標的除草剤の応用に不可欠である。
既存のディープラーニングモデルは、データセット固有の視覚的特徴に依存するため、一般化に苦慮している。
この制限に対処する新しいフレームワークであるビジョン・ランゲージ・ウィード(VL-WS)を提案する。
論文 参考訳(メタデータ) (2026-02-27T04:53:18Z) - LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation [12.192429756057132]
Open-vocabulary semantic segmentation (OVSS)は、従来のクローズドセットセマンティックセマンティックセマンティクスを拡張する。
ロゴセグは、(i)グローバルな画像とテキストの類似性を通じて関連カテゴリを動的に重み付けし、幻覚を効果的に低減するオブジェクトの存在、(ii)正確な地域レベルの視覚的テキスト対応を確立する地域対応アライメントモジュール、(iii)ローカルな構造情報とグローバルな意味コンテキストを最適に結合するデュアルストリーム融合機構の3つの重要なイノベーションを統合する。
論文 参考訳(メタデータ) (2026-02-05T12:03:11Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - FedSaaS: Class-Consistency Federated Semantic Segmentation via Global Prototype Supervision and Local Adversarial Harmonization [14.90727017126931]
統合セマンティックセグメンテーションは、協調学習による画像のピクセルレベルの分類を可能にする。
我々は、FedSaaSと呼ばれるクラス一貫性に挑戦する新しいフレームワークを提案する。
本フレームワークは,平均セグメンテーション精度を大幅に向上させ,クラス一貫性表現問題に効果的に対処する。
論文 参考訳(メタデータ) (2025-05-14T13:38:30Z) - LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation [9.759008308251127]
ゼロショット参照画像セグメンテーションは、参照表現に基づいてターゲット領域の特定とセグメンテーションを目的としている。
従来の作業では、ビジョンランゲージモデルとマスク提案ネットワークを領域テキストマッチングに利用することで、この問題に対処している。
本稿では,LGD(Leveraging Generative Descriptions)について述べる。
論文 参考訳(メタデータ) (2025-04-20T02:51:11Z) - Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - 3SHNet: Boosting Image-Sentence Retrieval via Visual Semantic-Spatial Self-Highlighting [12.770499009990864]
本稿では,高精度,高効率,高一般化画像文検索のための視覚的セマンティック・空間自己ハイライトネットワーク(3SHNet)を提案する。
3SHNetは、目立った物体とその空間的位置を視覚的に識別する。
MS-COCOとFlickr30Kベンチマークで実施された実験は、提案した3SHNetの優れた性能、推論効率、一般化を裏付けるものである。
論文 参考訳(メタデータ) (2024-04-26T09:25:18Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - Removing supervision in semantic segmentation with local-global matching
and area balancing [0.0]
我々は,局所的なパッチマッチングを利用した新しいエンドツーエンドモデルを設計し,セマンティックセグメンテーションのためのカテゴリ,優れたローカライゼーション,領域,形状を予測する。
Weakly Supervised Semanticでは画像レベルのラベルが75% mIoU,PascalVOC2012 valセットが75%,MS-COCO2014 valセットが46%であった。
また、PascalVOC2012 val では 43.6% mIoU 、MS-COCO2014 val では 19.4% である。
論文 参考訳(メタデータ) (2023-03-30T14:27:42Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Hierarchical Modular Network for Video Captioning [162.70349114104107]
ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。
提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
論文 参考訳(メタデータ) (2021-11-24T13:07:05Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。