論文の概要: kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies
- arxiv url: http://arxiv.org/abs/2404.09447v1
- Date: Mon, 15 Apr 2024 04:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:20:55.010183
- Title: kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies
- Title(参考訳): kNN-CLIP: Retrievalは、大規模語彙を継続的に拡張するトレーニング不要なセグメンテーションを可能にする
- Authors: Zhongrui Gui, Shuyang Sun, Runjia Li, Jianhao Yuan, Zhaochong An, Karsten Roth, Ameya Prabhu, Philip Torr,
- Abstract要約: ゼロ・ゼロ・ゼロ・ゼロ・セグメンテーションによるセグメンテーションとパン光学セグメンテーションの新たな戦略を導入する。
トレーニング不要なアプローチであるkNN-CLIPは、インスタンス埋め込みのデータベースを活用して、オープン語彙セグメンテーションのアプローチを可能にします。
この手法は,大語彙セマンティクスと汎視的セグメンテーションデータセットをまたいで,最先端のmIoU性能を実現する。
- 参考スコア(独自算出の注目度): 22.51592283786031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advancements in continual segmentation have yet to bridge the gap of scaling to large continually expanding vocabularies under compute-constrained scenarios. We discover that traditional continual training leads to catastrophic forgetting under compute constraints, unable to outperform zero-shot segmentation methods. We introduce a novel strategy for semantic and panoptic segmentation with zero forgetting, capable of adapting to continually growing vocabularies without the need for retraining or large memory costs. Our training-free approach, kNN-CLIP, leverages a database of instance embeddings to enable open-vocabulary segmentation approaches to continually expand their vocabulary on any given domain with a single-pass through data, while only storing embeddings minimizing both compute and memory costs. This method achieves state-of-the-art mIoU performance across large-vocabulary semantic and panoptic segmentation datasets. We hope kNN-CLIP represents a step forward in enabling more efficient and adaptable continual segmentation, paving the way for advances in real-world large-vocabulary continual segmentation methods.
- Abstract(参考訳): 連続的なセグメンテーションの急速な進歩は、計算制約のあるシナリオの下で拡大する大規模な語彙にスケーリングのギャップを埋めるには至っていない。
従来の連続学習は,計算制約下での大惨な忘れを招き,ゼロショットセグメンテーション法を上回り得ないことがわかった。
本稿では,記憶コストの増大や再学習を伴わずに,連続的に成長する語彙に適応できるセマンティック・パノプティック・セグメンテーションの新たな戦略を提案する。
トレーニング不要のアプローチであるkNN-CLIPは、インスタンス埋め込みのデータベースを活用して、オープン語彙セグメンテーションアプローチにより、データの単一パスで任意のドメイン上で語彙を継続的に拡張し、計算コストとメモリコストを最小化する。
この手法は,大語彙セマンティクスと汎視的セグメンテーションデータセットをまたいで,最先端のmIoU性能を実現する。
我々は、kNN-CLIPがより効率的で適応可能な連続セグメンテーションを実現するための一歩であり、実世界の大語彙連続セグメンテーション手法の進歩の道を開くことを願っている。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - ECLIPSE: Efficient Continual Learning in Panoptic Segmentation with Visual Prompt Tuning [54.68180752416519]
パノプティカルセグメンテーション(英: Panoptic segmentation)は、コンピュータビジョンの最先端タスクである。
ECLIPSE と呼ばれる Visual Prompt Tuning をベースとした,新規で効率的なパノプティカルセグメンテーション手法を提案する。
我々のアプローチは、基本モデルのパラメータを凍結し、小さなプロンプト埋め込みだけを微調整することであり、破滅的な忘れ物と塑性の両方に対処する。
論文 参考訳(メタデータ) (2024-03-29T11:31:12Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。