論文の概要: Rethinking Query-based Transformer for Continual Image Segmentation
- arxiv url: http://arxiv.org/abs/2507.07831v1
- Date: Thu, 10 Jul 2025 15:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.455913
- Title: Rethinking Query-based Transformer for Continual Image Segmentation
- Title(参考訳): 連続画像分割のためのクエリベースの変換器の再検討
- Authors: Yuchen Zhu, Cheng Shi, Dingyou Wang, Jiajin Tang, Zhengxuan Wei, Yu Wu, Guanbin Li, Sibei Yang,
- Abstract要約: CIS(Class-incremental/Continual Image segmentation)は、各段階ごとに利用可能なカテゴリのセットが異なる段階において、イメージセグメンタを訓練することを目的としている。
現在の方法は、しばしば連続的な学習プロセスからマスク生成を分離する。
しかし, この研究では, 可塑性の喪失と入力データ順序への重み付けという, 切り離されたフレームワークの2つの重要な問題を明らかにした。
- 参考スコア(独自算出の注目度): 59.40646424650094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class-incremental/Continual image segmentation (CIS) aims to train an image segmenter in stages, where the set of available categories differs at each stage. To leverage the built-in objectness of query-based transformers, which mitigates catastrophic forgetting of mask proposals, current methods often decouple mask generation from the continual learning process. This study, however, identifies two key issues with decoupled frameworks: loss of plasticity and heavy reliance on input data order. To address these, we conduct an in-depth investigation of the built-in objectness and find that highly aggregated image features provide a shortcut for queries to generate masks through simple feature alignment. Based on this, we propose SimCIS, a simple yet powerful baseline for CIS. Its core idea is to directly select image features for query assignment, ensuring "perfect alignment" to preserve objectness, while simultaneously allowing queries to select new classes to promote plasticity. To further combat catastrophic forgetting of categories, we introduce cross-stage consistency in selection and an innovative "visual query"-based replay mechanism. Experiments demonstrate that SimCIS consistently outperforms state-of-the-art methods across various segmentation tasks, settings, splits, and input data orders. All models and codes will be made publicly available at https://github.com/SooLab/SimCIS.
- Abstract(参考訳): CIS(Class-incremental/Continual Image segmentation)は、各段階ごとに利用可能なカテゴリのセットが異なる段階において、イメージセグメンタを訓練することを目的としている。
マスク提案の破滅的な忘れを緩和するクエリベースのトランスフォーマーの組込みオブジェクト性を活用するため、現在の手法では、マスク生成を連続学習プロセスから分離することが多い。
しかし, この研究では, 可塑性の喪失と入力データ順序への重み付けという, 切り離されたフレームワークの2つの重要な問題を明らかにした。
これらの問題に対処するために,組込みオブジェクトの詳細な調査を行い,高集積画像特徴が単純な特徴アライメントによってマスクを生成するためのクエリのショートカットを提供することを確認した。
そこで本研究では,CISのシンプルなベースラインであるSimCISを提案する。
その中核となる考え方は、クエリ代入のためのイメージ機能を直接選択し、オブジェクト性を維持するために"完全なアライメント"を確保し、同時にクエリが可塑性を促進するために新しいクラスを選択することである。
カテゴリーの破滅的な忘れと戦うために,選択における相互整合性と,革新的な「視覚的クエリ」に基づくリプレイ機構を導入する。
実験によると、SimCISはさまざまなセグメンテーションタスク、設定、分割、入力データ順序で最先端のメソッドを一貫して上回っている。
すべてのモデルとコードはhttps://github.com/SooLab/SimCISで公開される。
関連論文リスト
- DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。
CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。
実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-02T20:53:42Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Mask Matching Transformer for Few-Shot Segmentation [71.32725963630837]
Mask Matching Transformer (MM-Former) は、少数ショットセグメンテーションタスクのための新しいパラダイムである。
まず、MM-Formerは、まず分解し、次にブレンドするというパラダイムに従う。
一般的なCOCO-20i$とPascal-5i$ベンチマークに関する広範な実験を行っている。
論文 参考訳(メタデータ) (2022-12-05T11:00:32Z) - Few-Shot Learning Meets Transformer: Unified Query-Support Transformers
for Few-Shot Classification [16.757917001089762]
ほとんどショットの分類は、非常に限られたサンプルを使用して、目に見えないクラスを認識することを目的としていない。
本稿では,この2つの課題を統一的なQuery-Support TransFormerモデルにより同時にモデル化できることを示す。
4つの一般的なデータセットの実験は、提案したQSFormerの有効性と優位性を示している。
論文 参考訳(メタデータ) (2022-08-26T01:53:23Z) - Semantically Meaningful Class Prototype Learning for One-Shot Image
Semantic Segmentation [58.96902899546075]
ワンショットセマンティックイメージセグメンテーションは、1つの注釈付きイメージで新しいクラスのオブジェクト領域を分割することを目的としている。
最近の研究では、テスト時に予想される状況を模倣するために、エピソディクストレーニング戦略を採用している。
エピソードトレーニングにおいて,マルチクラスラベル情報を活用することを提案する。
ネットワークが各カテゴリに対してより意味のある機能を生成するように促すだろう。
論文 参考訳(メタデータ) (2021-02-22T12:07:35Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。