論文の概要: OV-Stitcher: A Global Context-Aware Framework for Training-Free Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.08110v1
- Date: Thu, 09 Apr 2026 11:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.882977
- Title: OV-Stitcher: A Global Context-Aware Framework for Training-Free Open-Vocabulary Semantic Segmentation
- Title(参考訳): OV-Stitcher:自由なオープン語彙セマンティックセマンティックセグメンテーションのためのグローバルコンテキスト認識フレームワーク
- Authors: Seungjae Moon, Seunghyun Oh, Youngmin Ro,
- Abstract要約: 訓練不要なオープン語彙セマンティックセマンティックセグメンテーション(TF-OVSS)が近年注目されている。
我々は,この制限に対処するトレーニングフリーフレームワークであるOV-Stitcherを提案する。
- 参考スコア(独自算出の注目度): 6.557057213603339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training-free open-vocabulary semantic segmentation(TF-OVSS) has recently attracted attention for its ability to perform dense prediction by leveraging the pretrained knowledge of large vision and vision-language models, without requiring additional training. However, due to the limited input resolution of these pretrained encoders, existing TF-OVSS methods commonly adopt a sliding-window strategy that processes cropped sub-images independently. While effective for managing high-resolution inputs, this approach prevents global attention over the full image, leading to fragmented feature representations and limited contextual reasoning. We propose OV-Stitcher, a training-free framework that addresses this limitation by stitching fragmented sub-image features directly within the final encoder block. By reconstructing attention representations from fragmented sub-image features, OV-Stitcher enables global attention within the final encoder block, producing coherent context aggregation and spatially consistent, semantically aligned segmentation maps. Extensive evaluations across eight benchmarks demonstrate that OV-Stitcher establishes a scalable and effective solution for open-vocabulary segmentation, achieving a notable improvement in mean Intersection over Union(mIoU) from 48.7 to 50.7 compared with prior training-free baselines.
- Abstract(参考訳): トレーニング不要なオープン語彙セマンティックセマンティックセグメンテーション(TF-OVSS)は,大規模視覚モデルや視覚言語モデルの事前学習知識を活用することで,新たなトレーニングを必要とせず,より密集した予測を行う能力に注目されている。
しかし、これらの事前訓練エンコーダの入力解像度が限られているため、既存のTF-OVSS法では、収穫されたサブイメージを独立に処理するスライディングウインドウ方式が一般的である。
高解像度入力の管理には有効であるが、本手法は全画像に対するグローバルな注意を抑え、特徴表現の断片化や文脈的推論の制限につながる。
我々は,この制限に対処するトレーニングフリーフレームワークであるOV-Stitcherを提案する。
OV-Stitcherは、断片化されたサブイメージの特徴から注意表現を再構成することにより、最終エンコーダブロック内でのグローバルな注意を可能にし、コヒーレントなコンテキストアグリゲーションと空間的に一貫性があり、意味的に整合したセグメンテーションマップを生成する。
8つのベンチマークにおいて、OV-Stitcherはオープン語彙セグメンテーションのスケーラブルで効果的なソリューションを確立しており、以前のトレーニング自由ベースラインと比較して、平均的なUnion(mIoU)のインターセクションを48.7から50.7に改善した。
関連論文リスト
- Rethinking Vector Field Learning for Generative Segmentation [50.08025820235397]
生成的セグメンテーションのためのモデリング拡散モデルが注目されている。
ベクトル場学習の観点から拡散セグメンテーションを再考する。
本稿では,学習した消滅速度場を距離認識補正項で拡張するベクトル場再構成手法を提案する。
この補正は、誘引的相互作用と反発的相互作用の両方を導入し、元の拡散訓練フレームワークを保ちながら、セントロイド付近の勾配等級を増大させる。
論文 参考訳(メタデータ) (2026-03-19T17:58:19Z) - Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation [48.488114831677166]
CLIPは、強い視覚的テキストアライメントを示すが、ローカライゼーションが不十分なため、オープン語彙セグメンテーションに苦慮している。
本稿では,出力ベースのパッチレベルの対応を中間的注意に戻す,トレーニング不要でフィードバック駆動型の自己適応型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-27T20:47:03Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。
我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。
その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-01T11:55:12Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation [32.852004564832455]
オープン語彙セマンティックセグメンテーションは、視覚表現とセマンティックラベルを統合するモデルを必要とする。
本稿では,CLIP(Contrastive Language- Image Pre-Training)とVFM(Vision Foundation Models)の強みを調和させるフレームワークであるProxyCLIPを紹介する。
トレーニングなしのアプローチとして、ProxyCLIP は平均的な平均接点(mIoU)を40.3から44.4までの8つのベンチマークで大幅に改善する。
論文 参考訳(メタデータ) (2024-08-09T06:17:00Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.146292819267956]
大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。
本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文 参考訳(メタデータ) (2023-11-28T06:42:58Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。