論文の概要: OVS-DINO: Open-Vocabulary Segmentation via Structure-Aligned SAM-DINO with Language Guidance
- arxiv url: http://arxiv.org/abs/2604.08461v1
- Date: Thu, 09 Apr 2026 16:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.035216
- Title: OVS-DINO: Open-Vocabulary Segmentation via Structure-Aligned SAM-DINO with Language Guidance
- Title(参考訳): OVS-DINO: 言語指導による構造対応SAM-DINOによるオープン語彙セグメンテーション
- Authors: Haoxi Zeng, Qiankun Liu, Yi Bin, Haiyue Zhang, Yujuan Ding, Guoqing Wang, Deqiang Ouyang, Heng Tao Shen,
- Abstract要約: Open-Vocabularyは、セマンティック記述を活用することで、定義済みのカテゴリセットを超えてイメージ領域を分割することを目的としている。
近年の取り組みは、これらの制限を軽減するために、DINOのようなVision Foundation Models (VFM) を取り入れている。
我々は,構造アライメントを通じてDINOの潜在エッジ感度を活性化する新しいフレームワークであるOVS-DINOを提案する。
- 参考スコア(独自算出の注目度): 53.45125687428705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Segmentation (OVS) aims to segment image regions beyond predefined category sets by leveraging semantic descriptions. While CLIP based approaches excel in semantic generalization, they frequently lack the fine-grained spatial awareness required for dense prediction. Recent efforts have incorporated Vision Foundation Models (VFMs) like DINO to alleviate these limitations. However, these methods still struggle with the precise edge perception necessary for high fidelity segmentation. In this paper, we analyze internal representations of DINO and discover that its inherent boundary awareness is not absent but rather undergoes progressive attenuation as features transition into deeper transformer blocks. To address this, we propose OVS-DINO, a novel framework that revitalizes latent edge-sensitivity of DINO through structural alignment with the Segment Anything Model (SAM). Specifically, we introduce a Structure-Aware Encoder (SAE) and a Structure-Modulated Decoder (SMD) to effectively activate boundary features of DINO using SAM's structural priors, complemented by a supervision strategy utilizing SAM generated pseudo-masks. Extensive experiments demonstrate that our method achieves state-of-the-art performance across multiple weakly-supervised OVS benchmarks, improving the average score by 2.1% (from 44.8% to 46.9%). Notably, our approach significantly enhances segmentation accuracy in complex, cluttered scenarios, with a gain of 6.3% on Cityscapes (from 36.6% to 42.9%).
- Abstract(参考訳): Open-Vocabulary Segmentation (OVS)は、セマンティック記述を活用することで、定義済みのカテゴリセットを超えてイメージ領域をセグメントすることを目的としている。
CLIPベースのアプローチはセマンティック・ジェネリゼーションに優れているが、密集した予測に必要な細粒度の空間認識を欠くことが多い。
近年の取り組みは、これらの制限を軽減するために、DINOのようなVision Foundation Models (VFM) を取り入れている。
しかし、これらの手法は高忠実度セグメンテーションに必要な正確なエッジ認識といまだに苦労している。
本稿では,DINOの内部表現を分析し,その内在する境界認識が存在しないのではなく,より深いトランスフォーマーブロックへ遷移するにつれて,進行減衰が進行することを示す。
そこで本研究では,Segment Anything Model (SAM) と構造アライメントすることで,DINOの潜在エッジ感度を再活性化する新しいフレームワークであるOVS-DINOを提案する。
具体的には,SAM が生成した擬似マスクを利用した監視戦略を補完する構造対応エンコーダ (SAE) と構造変調デコーダ (SMD) を導入し,DINO の境界特性を効果的に活性化する。
大規模実験により,複数の弱教師付きOVSベンチマークにおける最先端性能が達成され,平均スコアが2.1%向上した(44.8%から46.9%)。
特に,複雑で散在したシナリオにおけるセグメント化精度は,Cityscapes(36.6%から42.9%)で6.3%向上した。
関連論文リスト
- Decouple and Rectify: Semantics-Preserving Structural Enhancement for Open-Vocabulary Remote Sensing Segmentation [23.298715255853782]
リモートセンシング(RS)分野におけるオープンボキャブラリセマンティックセマンティックセマンティックセマンティクスは、言語対応認識と細粒度空間デライン化の両方を必要とする。
最近の手法は、RS-pretrained DINO特徴を導入して、これを補おうとしている。
本稿では, DR-Segを提案する。
論文 参考訳(メタデータ) (2026-04-02T13:15:05Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - SAM-Aug: Leveraging SAM Priors for Few-Shot Parcel Segmentation in Satellite Time Series [3.4368348203064283]
そこで本研究では,少数のランドカバーマッピングを改善するためのアノテーション効率のよい新しいフレームワークSAM-Augを提案する。
提案手法は, 時間列から雲のない合成画像を構築し, SAMを教師なしで適用する。
PASTIS-Rベンチマークの実験では5%のラベル付き設定でSAM-Augの有効性と堅牢性を示した。
論文 参考訳(メタデータ) (2026-01-14T03:18:04Z) - Structure-Aware Feature Rectification with Region Adjacency Graphs for Training-Free Open-Vocabulary Semantic Segmentation [22.409969687852506]
画像から直接派生したインスタンス固有の事前情報を組み込んだ構造認識機能修正手法を提案する。
本手法は,セグメンテーションノイズを効果的に抑制し,領域レベルの整合性を向上し,複数の開語彙セグメンテーションベンチマークにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2025-12-08T10:00:36Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation [26.786890883280062]
本稿では,CLIP と DINO が抽出した特徴をサブイメージから切り離し,SAM のエンコーダを利用してグローバルアグリゲーションの相関行列を生成する,トレーニング不要なフレームワーク Trident を紹介する。
Tridentは、現在のSOTAと比較して8つのベンチマークでmIoUを大幅に改善し、44.4から48.6.Codeに増加した。
論文 参考訳(メタデータ) (2024-11-14T06:31:20Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - ISTR: End-to-End Instance Segmentation with Transformers [147.14073165997846]
ISTRと呼ばれるインスタンスセグメンテーショントランスフォーマーを提案します。これは、その種類の最初のエンドツーエンドフレームワークです。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
ISTRは、提案されたエンドツーエンドのメカニズムにより、近似ベースのサブオプティマティック埋め込みでも最先端のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-05-03T06:00:09Z) - On the Structures of Representation for the Robustness of Semantic
Segmentation to Input Corruption [16.897599251748982]
Implicit background Estimation (IBE) は、セマンティックセグメンテーションモデルに対するアウト・オブ・ディストリビューション・インプットに対するロバスト性を改善するための有望な手法であることを示した。
本稿では、Softmax, IBE, Sigmoid を用いた最適化目標から得られた構造を比較分析する。
IBE 40.3 および Softmax Baseline 37.5 と比較して,SCrIBE は全ての汚損量および重大度レベルを 42.1 の mIOU で集計し,優れたセグメンテーション性能を示すことを示した。
論文 参考訳(メタデータ) (2020-09-02T04:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。