論文の概要: Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2603.23030v1
- Date: Tue, 24 Mar 2026 10:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.425828
- Title: Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation
- Title(参考訳): ウィンドウを超えて見る:訓練不要なオープン語彙セマンティックセマンティックセマンティックセグメンテーションのためのグローバルローカルアライメントCLIP
- Authors: ByeongCheol Lee, Hyun Seok Seong, Sangeek Hyun, Gilhan Park, WonJun Moon, Jae-Pil Heo,
- Abstract要約: スライディングウインドウ推論戦略は、訓練のないオープン語彙セマンティックセマンティックセグメンテーション法で一般的に採用されている。
それぞれのウィンドウは独立して処理され、ウィンドウ間のセマンティックな相違が生じます。
GLA-CLIP(Global-Local Aligned CLIP)は,ウィンドウ間の包括的情報交換を容易にするフレームワークである。
- 参考スコア(独自算出の注目度): 44.32289400317069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A sliding-window inference strategy is commonly adopted in recent training-free open-vocabulary semantic segmentation methods to overcome limitation of the CLIP in processing high-resolution images. However, this approach introduces a new challenge: each window is processed independently, leading to semantic discrepancy across windows. To address this issue, we propose Global-Local Aligned CLIP~(GLA-CLIP), a framework that facilitates comprehensive information exchange across windows. Rather than limiting attention to tokens within individual windows, GLA-CLIP extends key-value tokens to incorporate contextual cues from all windows. Nevertheless, we observe a window bias: outer-window tokens are less likely to be attended, since query features are produced through interactions within the inner window patches, thereby lacking semantic grounding beyond their local context. To mitigate this, we introduce a proxy anchor, constructed by aggregating tokens highly similar to the given query from all windows, which provides a unified semantic reference for measuring similarity across both inner- and outer-window patches. Furthermore, we propose a dynamic normalization scheme that adjusts attention strength according to object scale by dynamically scaling and thresholding the attention map to cope with small-object scenarios. Moreover, GLA-CLIP can be equipped on existing methods and broad their receptive field. Extensive experiments validate the effectiveness of GLA-CLIP in enhancing training-free open-vocabulary semantic segmentation performance. Code is available at https://github.com/2btlFe/GLA-CLIP.
- Abstract(参考訳): 高速画像処理におけるCLIPの限界を克服するために,最近の訓練不要なオープン語彙セマンティックセマンティックセマンティクス手法では,スライディングウィンドウ推論戦略が一般的である。
それぞれのウィンドウは独立して処理され、ウィンドウ間のセマンティックな相違が生じます。
この問題に対処するため、ウィンドウ間の包括的な情報交換を容易にするGLA-CLIP(GLA-CLIP)を提案する。
個々のウィンドウ内のトークンへの注意を制限する代わりに、GLA-CLIPはキー値トークンを拡張して、すべてのウィンドウからコンテキストキューを組み込む。
外部ウィンドウトークンは、内部ウィンドウパッチ内のインタラクションを通じてクエリ機能が生成されるため、ローカルコンテキスト以外のセマンティックグラウンドが欠如している。
これを緩和するために、すべてのウィンドウから与えられたクエリに非常によく似たトークンを集約することで構築されたプロキシアンカーを導入し、内部および外部のパッチの類似性を測定するための統一的なセマンティックリファレンスを提供する。
さらに,対象物の大きさに応じて注意力を調整する動的正規化手法を提案する。
さらに、GLA-CLIPは既存の手法を取り入れ、受容領域を広げることができる。
GLA-CLIPの学習自由な開語彙セマンティックセグメンテーション性能向上における有効性を検証する。
コードはhttps://github.com/2btlFe/GLA-CLIPで入手できる。
関連論文リスト
- SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。
近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。
分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文 参考訳(メタデータ) (2025-12-16T15:11:53Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception [21.87721909270275]
DeCLIPはCLIPをコンテンツとコンテキストの機能で強化する新しいフレームワークである。
複数の開語彙密接な予測タスクで既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-05-07T13:46:34Z) - Rethinking the Global Knowledge of CLIP in Training-Free Open-Vocabulary Semantic Segmentation [5.3499687969383345]
本稿では,TF-OVSSにおけるCLIPのグローバル知識を抽出し,活用するためのGCLIPを提案する。
我々は、パッチ間の均一な注意パターンを導入せずに、最終ブロックの注意を画像レベルの特性と同等にすることを目指している。
論文 参考訳(メタデータ) (2025-02-05T03:37:50Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation [31.264574799748903]
アノテーションを必要としないオープン語彙セマンティックセマンティックセマンティクス法を提案する。
使用済みの自己教師機能プロパティは,CLIP機能から直接学習可能であることを示す。
我々のCLIP-DINOiser法は,CLIPの1つの前方通過と2つの軽い畳み込み層のみを必要とする。
論文 参考訳(メタデータ) (2023-12-19T17:40:27Z) - Parallel Context Windows for Large Language Models [52.965170346907904]
本稿では,PCW(Parallel Context Windows)について述べる。
本研究の主な成果は,7億5000万から1億7800億のパラメータのモデルを用いて,テキスト内学習におけるPCWアプローチを検証した。
長いコンテキストウインドウが有益であるかもしれない他の設定では、マルチホップ質問と検索強化質問が複数の検索された文書で答えられる。
論文 参考訳(メタデータ) (2022-12-21T11:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。