論文の概要: Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2501.17642v1
- Date: Wed, 29 Jan 2025 13:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:57.168152
- Title: Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation
- Title(参考訳): Open-Vocabulary Semantic Segmentation の効率よい冗長化
- Authors: Lin Chen, Qi Yang, Kun Ding, Zhihao Li, Gang Shen, Fei Li, Qiyuan Cao, Shiming Xiang,
- Abstract要約: Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
- 参考スコア(独自算出の注目度): 36.46163240168576
- License:
- Abstract: Open-vocabulary semantic segmentation (OVSS) is an open-world task that aims to assign each pixel within an image to a specific class defined by arbitrary text descriptions. Recent advancements in large-scale vision-language models have demonstrated their open-vocabulary understanding capabilities, significantly facilitating the development of OVSS. However, most existing methods suffer from either suboptimal performance or long latency. This study introduces ERR-Seg, a novel framework that effectively reduces redundancy to balance accuracy and efficiency. ERR-Seg incorporates a training-free Channel Reduction Module (CRM) that leverages prior knowledge from vision-language models like CLIP to identify the most relevant classes while discarding others. Moreover, it incorporates Efficient Semantic Context Fusion (ESCF) with spatial-level and class-level sequence reduction strategies. CRM and ESCF result in substantial memory and computational savings without compromising accuracy. Additionally, recognizing the significance of hierarchical semantics extracted from middle-layer features for closed-set semantic segmentation, ERR-Seg introduces the Hierarchical Semantic Module (HSM) to exploit hierarchical semantics in the context of OVSS. Compared to previous state-of-the-art methods under the ADE20K-847 setting, ERR-Seg achieves +$5.6\%$ mIoU improvement and reduces latency by $67.3\%$.
- Abstract(参考訳): Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示し、OVSSの開発を著しく促進している。
しかし、既存のほとんどのメソッドは、最適以下のパフォーマンスまたは長時間のレイテンシに悩まされている。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
ERR-Segには、CLIPのようなビジョン言語モデルからの事前知識を活用して、他のクラスを捨てながら最も関連性の高いクラスを識別する、トレーニングフリーなチャネルリダクションモジュール(CRM)が組み込まれている。
さらに、ESCF(Efficient Semantic Context Fusion)と空間レベルおよびクラスレベルのシーケンス削減戦略を組み込んでいる。
CRMとESCFは、精度を損なうことなく、メモリと計算の大幅な節約をもたらす。
さらに、閉じたセマンティックセグメンテーションのために中間層の特徴から抽出された階層的セマンティクスの重要性を認識し、ERR-SegはOVSSの文脈で階層的セマンティクスを利用する階層的セマンティクスモジュール(HSM)を導入した。
ADE20K-847の以前の最先端の手法と比較して、ERR-Segは$5.6\%$ mIoUの改善を達成し、レイテンシを67.3\%$に削減した。
関連論文リスト
- Uncertainty-Participation Context Consistency Learning for Semi-supervised Semantic Segmentation [9.546065701435532]
半教師付きセマンティックセグメンテーションは、広範囲なラベル付きデータへの依存を緩和する能力にかなりの注目を集めている。
本稿では、よりリッチな監視信号を探索するために、不確かさ参加型コンテキスト一貫性学習(UCCL)手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T06:49:59Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - IRS-Enhanced Secure Semantic Communication Networks: Cross-Layer and Context-Awared Resource Allocation [30.000606717755833]
eavesdroppingの課題は、無線通信のオープンな性質のため、セマンティックプライバシに深刻な脅威をもたらす。
本稿では,タスク指向のセマンティック視点から物理層セキュリティを保証するために,インテリジェント反射面(IRS)強化セキュアセマンティック通信(IRS-SSC)を提案する。
本研究では,高次元意味空間と可観測系状態空間を融合させる新しい意味認識状態空間(SCA-SS)を提案する。
論文 参考訳(メタデータ) (2024-11-04T05:40:30Z) - IncSAR: A Dual Fusion Incremental Learning Framework for SAR Target Recognition [13.783950035836593]
IncSARは、ターゲット認識における破滅的な忘れに対処するために設計された漸進的な学習フレームワークである。
SAR画像に固有のスペックルノイズを軽減するため、ニューラルネットワーク近似に基づくデノナイジングモジュールを用いる。
MSTAR、SAR-AIRcraft-1.0、OpenSARShipベンチマークデータセットの実験は、IncSARが最先端のアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-10-08T08:49:47Z) - Generalization Boosted Adapter for Open-Vocabulary Segmentation [15.91026999425076]
Generalization Boosted Adapter (GBA) は、視覚言語モデルの一般化と堅牢性を高める新しいアダプタ戦略である。
シンプルで効率的でプラグアンドプレイなコンポーネントとして、GAAは様々なCLIPベースのメソッドに柔軟に統合できる。
論文 参考訳(メタデータ) (2024-09-13T01:49:12Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。