論文の概要: CRISP: Contrastive Residual Injection and Semantic Prompting for Continual Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2508.10432v1
- Date: Thu, 14 Aug 2025 08:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.227335
- Title: CRISP: Contrastive Residual Injection and Semantic Prompting for Continual Video Instance Segmentation
- Title(参考訳): CRISP: 連続ビデオインスタンスセグメンテーションのための対照的な残留注入と意味的プロンプト
- Authors: Baichen Liu, Qi Lyu, Xudong Wang, Jiahua Dong, Lianqing Liu, Zhi Han,
- Abstract要約: CRISP(Contrastive Residual Injection and Semantic Prompting)を紹介する。
CRISPは、連続的なビデオインスタンスセグメンテーションにおけるインスタンスワイド、カテゴリワイド、タスクワイドの混乱に対処することを目的としている。
長期連続ビデオインスタンスセグメンテーションタスクにおいて、既存の連続的なセグメンテーション手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 22.488935184542154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual video instance segmentation demands both the plasticity to absorb new object categories and the stability to retain previously learned ones, all while preserving temporal consistency across frames. In this work, we introduce Contrastive Residual Injection and Semantic Prompting (CRISP), an earlier attempt tailored to address the instance-wise, category-wise, and task-wise confusion in continual video instance segmentation. For instance-wise learning, we model instance tracking and construct instance correlation loss, which emphasizes the correlation with the prior query space while strengthening the specificity of the current task query. For category-wise learning, we build an adaptive residual semantic prompt (ARSP) learning framework, which constructs a learnable semantic residual prompt pool generated by category text and uses an adjustive query-prompt matching mechanism to build a mapping relationship between the query of the current task and the semantic residual prompt. Meanwhile, a semantic consistency loss based on the contrastive learning is introduced to maintain semantic coherence between object queries and residual prompts during incremental training. For task-wise learning, to ensure the correlation at the inter-task level within the query space, we introduce a concise yet powerful initialization strategy for incremental prompts. Extensive experiments on YouTube-VIS-2019 and YouTube-VIS-2021 datasets demonstrate that CRISP significantly outperforms existing continual segmentation methods in the long-term continual video instance segmentation task, avoiding catastrophic forgetting and effectively improving segmentation and classification performance. The code is available at https://github.com/01upup10/CRISP.
- Abstract(参考訳): 連続的なビデオインスタンスのセグメンテーションは、フレーム間の時間的一貫性を維持しながら、新しいオブジェクトカテゴリを吸収する可塑性と、以前に学んだものを保持する安定性の両方を要求する。
本稿では,連続的なビデオ・インスタンス・セグメンテーションにおけるインスタンス・ワイド,カテゴリ・ワイド,タスク・ワイドの混乱に対処するための初期の試みであるContrastive Residual Injection and Semantic Prompting(CRISP)を紹介する。
これは、現在のタスククエリの特異性を強化しつつ、以前のクエリ空間との相関を強調します。
このフレームワークは、カテゴリテキストによって生成された学習可能なセマンティック・セマンティック・セマンティック・セマンティック・プロンプト・プールを構築し、調整型クエリ・プロンプトマッチング機構を用いて、現在のタスクのクエリとセマンティック・セマンティック・セマンティック・セマンティック・プロンプトのマッピング関係を構築する。
一方、コントラスト学習に基づくセマンティック一貫性の損失を導入し、インクリメンタルトレーニング中にオブジェクトクエリと残留プロンプト間のセマンティックコヒーレンスを維持する。
タスクワイズ学習では,クエリ空間内のタスク間レベルの相関性を確保するために,インクリメンタルプロンプトに対する簡潔かつ強力な初期化戦略を導入する。
YouTube-VIS-2019とYouTube-VIS-2021データセットの大規模な実験により、CRISPは長期的な連続的なビデオインスタンスセグメンテーションタスクにおいて既存の連続的なセグメンテーション手法を大幅に上回っており、破滅的な忘れを回避し、セグメンテーションと分類性能を効果的に改善していることが示された。
コードはhttps://github.com/01upup10/CRISPで入手できる。
関連論文リスト
- StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [51.003833566279006]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Mitigating Catastrophic Forgetting in Task-Incremental Continual
Learning with Adaptive Classification Criterion [50.03041373044267]
本稿では,継続的学習のための適応型分類基準を用いた教師付きコントラスト学習フレームワークを提案する。
実験により, CFLは最先端の性能を達成し, 分類基準に比べて克服する能力が強いことが示された。
論文 参考訳(メタデータ) (2023-05-20T19:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。