Fugu-MT 論文翻訳(概要): Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation

論文の概要: Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation

arxiv url: http://arxiv.org/abs/2407.08268v1
Date: Thu, 11 Jul 2024 08:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 18:29:17.021795
Title: Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation
Title（参考訳）: 学習自由なオープン語彙セマンティックセマンティックセマンティックセグメンテーションにおけるCLIPの可能性を探る
Authors: Tong Shao, Zhuotao Tian, Hang Zhao, Jingyong Su,
Abstract要約: トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。パッチ間の自己相関を補正することで、局所的な特徴認識を高める。実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
参考スコア（独自算出の注目度）: 38.16802763051431
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: CLIP, as a vision-language model, has significantly advanced Open-Vocabulary Semantic Segmentation (OVSS) with its zero-shot capabilities. Despite its success, its application to OVSS faces challenges due to its initial image-level alignment training, which affects its performance in tasks requiring detailed local context. Our study delves into the impact of CLIP's [CLS] token on patch feature correlations, revealing a dominance of "global" patches that hinders local feature discrimination. To overcome this, we propose CLIPtrase, a novel training-free semantic segmentation strategy that enhances local feature awareness through recalibrated self-correlation among patches. This approach demonstrates notable improvements in segmentation accuracy and the ability to maintain semantic coherence across objects.Experiments show that we are 22.3% ahead of CLIP on average on 9 segmentation benchmarks, outperforming existing state-of-the-art training-free methods.The code are made publicly available at: https://github.com/leaves162/CLIPtrase.
Abstract（参考訳）: CLIPはビジョン言語モデルとして、ゼロショット機能を備えたOpen-Vocabulary Semantic Segmentation (OVSS)が大幅に進歩した。その成功にもかかわらず、OVSSへのその適用は、画像レベルのアライメントトレーニングが、詳細なローカルコンテキストを必要とするタスクのパフォーマンスに影響するため、課題に直面している。われわれは,CLIPの[CLS]トークンがパッチ特徴相関に与える影響を考察し,局所的特徴識別を妨げる「グローバル」パッチの優位性を明らかにした。この問題を解決するために、パッチ間の自己相関を補正することで、局所的な特徴認識を高める新しいトレーニング不要なセマンティックセマンティックセマンティクス戦略であるCLIPtraseを提案する。このアプローチは、セグメンテーションの精度とオブジェクト間のセマンティックコヒーレンスを維持する能力の顕著な改善を示す。実験では、CLIPが9つのセグメンテーションベンチマークで平均で22.3%先行し、既存の最先端のトレーニングフリーメソッドを上回っている。コードは、https://github.com/leaves162/CLIPtraseで公開されています。

関連論文リスト

Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。 SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳（メタデータ） (2024-11-24T15:14:05Z)
ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。 RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文参考訳（メタデータ） (2024-11-24T14:14:14Z)
ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文参考訳（メタデータ） (2024-07-17T09:52:20Z)
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。 OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文参考訳（メタデータ） (2024-04-12T01:08:04Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文参考訳（メタデータ） (2023-12-07T07:00:09Z)
SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文参考訳（メタデータ） (2023-12-04T03:18:46Z)
TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。 CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文参考訳（メタデータ） (2023-04-15T12:52:23Z)
Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。 PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文参考訳（メタデータ） (2022-12-09T17:23:00Z)
DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。 DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文参考訳（メタデータ） (2021-12-02T09:23:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。