論文の概要: Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network
- arxiv url: http://arxiv.org/abs/2304.01198v2
- Date: Mon, 7 Aug 2023 06:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 23:31:36.491647
- Title: Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network
- Title(参考訳): Decoupled One-Pass Networkによるオープンボキャブラリセマンティックセマンティックセグメンテーション
- Authors: Cong Han, Yujie Zhong, Dengjie Li, Kai Han, Lin Ma
- Abstract要約: 入力画像の視覚言語モデルに1つのパスしか必要としないネットワークを提案する。
本稿ではまず,事前学習した視覚エンコーダにおけるパッチ埋め込み間の有害な干渉を抑制するために,パッチ重大度と呼ばれる新しいネットワーク適応手法を提案する。
そこで我々は,ネットワークがより差別的な特徴に着目するよう促すために,分類アンカー学習を提案する。
- 参考スコア(独自算出の注目度): 26.97153244517095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the open-vocabulary semantic segmentation problem has attracted
increasing attention and the best performing methods are based on two-stream
networks: one stream for proposal mask generation and the other for segment
classification using a pretrained visual-language model. However, existing
two-stream methods require passing a great number of (up to a hundred) image
crops into the visual-language model, which is highly inefficient. To address
the problem, we propose a network that only needs a single pass through the
visual-language model for each input image. Specifically, we first propose a
novel network adaptation approach, termed patch severance, to restrict the
harmful interference between the patch embeddings in the pre-trained visual
encoder. We then propose classification anchor learning to encourage the
network to spatially focus on more discriminative features for classification.
Extensive experiments demonstrate that the proposed method achieves outstanding
performance, surpassing state-of-the-art methods while being 4 to 7 times
faster at inference. Code: https://github.com/CongHan0808/DeOP.git
- Abstract(参考訳): 近年,open-vocabulary semantic segmentation問題に注目が集まっており,提案マスク生成のためのストリームと事前学習されたビジュアル言語モデルを用いたセグメント分類という,2つのストリームネットワークに基づく最適な実行手法が提案されている。
しかし、既存の2ストリーム手法では、非常に非効率な視覚言語モデルに大量の(最大100まで)画像作物を渡す必要がある。
この問題に対処するために、入力画像ごとに視覚言語モデルに1回だけパスする必要のあるネットワークを提案する。
具体的には,まず,事前学習した視覚エンコーダ内のパッチ埋め込み間の有害干渉を制限するために,パッチ切断と呼ぶ新しいネットワーク適応手法を提案する。
そこで我々は,ネットワークがより差別的な特徴に着目するように,分類アンカー学習を提案する。
大規模実験により,提案手法は予測の4倍から7倍の速さで最先端の手法を超越し,優れた性能を発揮することが示された。
コード: https://github.com/conghan0808/deop.git
関連論文リスト
- Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Compare learning: bi-attention network for few-shot learning [6.559037166322981]
距離学習と呼ばれる数ショットの学習手法の1つは、画像のペアが同じカテゴリに属しているかどうかを判断するために、まず遠距離計量を学習することで、この課題に対処する。
本稿では, インスタンスの埋め込みの類似性を正確に, グローバルかつ効率的に測定できる, Bi-attention Network という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T07:39:10Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Train a One-Million-Way Instance Classifier for Unsupervised Visual
Representation Learning [45.510042484456854]
本稿では、パラメトリックなインスタンスレベルの計算を用いて、データセット内のすべての画像を識別するプリテキストタスクを備えた、単純な教師なし視覚表現学習法を提案する。
全体的なフレームワークは教師付き分類モデルのレプリカであり、セマンティッククラス(犬、鳥、船など)はインスタンスIDに置き換えられる。
数千のセマンティックラベルから数百万のインスタンスラベルへの分類タスクのスケールアップは、1)大規模ソフトマックス分類器、2)インスタンスサンプルの頻度の低い訪問による緩やかな収束、3)ノイズの多い大量の負のクラスなど、特定の課題をもたらす。
論文 参考訳(メタデータ) (2021-02-09T14:44:18Z) - Find it if You Can: End-to-End Adversarial Erasing for Weakly-Supervised
Semantic Segmentation [6.326017213490535]
本稿では,注目マップの逆消去の新たな定式化を提案する。
提案手法はサリエンシマスクを必要とせず, 注意マップの識別対象領域への拡散を防止するために, 正規化損失を用いる。
パスカルVOCデータセットを用いた実験により, 従来と比べ2.1mIoU, 1.0mIoUのセグメンテーション性能が向上することが示された。
論文 参考訳(メタデータ) (2020-11-09T18:35:35Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。