論文の概要: LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2602.05578v1
- Date: Thu, 05 Feb 2026 12:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.916682
- Title: LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation
- Title(参考訳): LoGoSeg: オープンボキャブラリセマンティックセマンティックセグメンテーションのためのローカル機能とグローバル機能の統合
- Authors: Junyang Chen, Xiangbo Lv, Zhiqiang Kou, Xingdong Sheng, Ning Xu, Yiguo Qiao,
- Abstract要約: Open-vocabulary semantic segmentation (OVSS)は、従来のクローズドセットセマンティックセマンティックセマンティクスを拡張する。
ロゴセグは、(i)グローバルな画像とテキストの類似性を通じて関連カテゴリを動的に重み付けし、幻覚を効果的に低減するオブジェクトの存在、(ii)正確な地域レベルの視覚的テキスト対応を確立する地域対応アライメントモジュール、(iii)ローカルな構造情報とグローバルな意味コンテキストを最適に結合するデュアルストリーム融合機構の3つの重要なイノベーションを統合する。
- 参考スコア(独自算出の注目度): 12.192429756057132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) extends traditional closed-set segmentation by enabling pixel-wise annotation for both seen and unseen categories using arbitrary textual descriptions. While existing methods leverage vision-language models (VLMs) like CLIP, their reliance on image-level pretraining often results in imprecise spatial alignment, leading to mismatched segmentations in ambiguous or cluttered scenes. However, most existing approaches lack strong object priors and region-level constraints, which can lead to object hallucination or missed detections, further degrading performance. To address these challenges, we propose LoGoSeg, an efficient single-stage framework that integrates three key innovations: (i) an object existence prior that dynamically weights relevant categories through global image-text similarity, effectively reducing hallucinations; (ii) a region-aware alignment module that establishes precise region-level visual-textual correspondences; and (iii) a dual-stream fusion mechanism that optimally combines local structural information with global semantic context. Unlike prior works, LoGoSeg eliminates the need for external mask proposals, additional backbones, or extra datasets, ensuring efficiency. Extensive experiments on six benchmarks (A-847, PC-459, A-150, PC-59, PAS-20, and PAS-20b) demonstrate its competitive performance and strong generalization in open-vocabulary settings.
- Abstract(参考訳): Open-vocabulary semantic segmentation (OVSS) は、任意のテキスト記述を用いて、表示されたカテゴリと見えないカテゴリの両方に対するピクセルワイズアノテーションを有効にすることで、従来のクローズドセットセグメンテーションを拡張している。
既存の手法では、CLIPのような視覚言語モデル(VLM)を利用するが、画像レベルの事前訓練に依存しているため、不正確な空間的アライメントが生じ、不明瞭なシーンや散らばったシーンに不一致のセグメンテーションが生じる。
しかし、既存のアプローチのほとんどは、強いオブジェクトの優先順位と領域レベルの制約を欠いているため、オブジェクトの幻覚や検出の欠如を招き、パフォーマンスをさらに低下させる可能性がある。
これらの課題に対処するために,3つの重要なイノベーションを統合する,効率的なシングルステージフレームワークであるLoGoSegを提案する。
(i)大域的イメージテキスト類似性を通じて関連カテゴリを動的に重み付けし、幻覚を効果的に減少させる対象存在
(ii)正確な地域レベルの視覚テキスト対応を確立する地域対応アライメントモジュール、及び
三 局所構造情報と大域的意味文脈を最適に結合する二重ストリーム融合機構
以前の作業とは異なり、LoGoSegは外部マスクの提案やバックボーンの追加、データセットの追加の必要性を排除し、効率性を確保する。
6つのベンチマーク(A-847、PC-459、A-150、PC-59、PAS-20、PAS-20b)の大規模な実験は、オープン語彙設定における競争性能と強力な一般化を実証している。
関連論文リスト
- Structure-Aware Feature Rectification with Region Adjacency Graphs for Training-Free Open-Vocabulary Semantic Segmentation [22.409969687852506]
画像から直接派生したインスタンス固有の事前情報を組み込んだ構造認識機能修正手法を提案する。
本手法は,セグメンテーションノイズを効果的に抑制し,領域レベルの整合性を向上し,複数の開語彙セグメンテーションベンチマークにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2025-12-08T10:00:36Z) - Multi-Text Guided Few-Shot Semantic Segmentation [17.27158303776253]
セグメント化性能を向上させるためにMTGNet(Multi-Text Guided Few-Shot Semantic Network)を提案する。
MTGNetは様々なテキストプロンプトを融合させ、テキストの事前を洗練させ、視覚的事前の相互最適化を導く。
PASCAL-5iでは76.8% mIoU、COCO-20iでは57.4%を達成し、高いクラス内変動を示す折り畳みは顕著に改善されている。
論文 参考訳(メタデータ) (2025-11-19T15:09:19Z) - A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP [12.96248884328754]
本稿では,オープンボキャブラリ画像セグメンテーションとオブジェクト認識のための新しい学習自由フレームワークを提案する。
教師なしセグメンテーションには畳み込みニューラルネットワークであるEfficientNetB0を使用し、オープン語彙オブジェクト認識には視覚言語モデルであるCLIPを使用している。
ハンガリーのmIoU、精度、リコール、F1スコアで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-22T07:54:18Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。