論文の概要: Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2508.08612v1
- Date: Tue, 12 Aug 2025 03:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.293183
- Title: Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation
- Title(参考訳): 連続ビデオインスタンスセグメンテーションのための階層型ビジュアルプロンプト学習
- Authors: Jiahua Dong, Hui Yin, Wenqi Liang, Hanbin Zhao, Henghui Ding, Nicu Sebe, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: ビデオインスタンスセグメンテーション(VIS)は、ビデオフレーム全体にわたるオブジェクトインスタンスのトラッキングとセグメンテーションの能力において、大きな注目を集めている。
既存のVISアプローチのほとんどは、オブジェクトインスタンスのカテゴリが時間とともに固定されていると非現実的に仮定する。
我々は,フレームレベルとビデオレベルの両方の観点から,過去のカテゴリの破滅的な忘れを克服する新しい階層型ビジュアルプロンプト学習モデルを開発した。
- 参考スコア(独自算出の注目度): 115.74044261016554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation (VIS) has gained significant attention for its capability in tracking and segmenting object instances across video frames. However, most of the existing VIS approaches unrealistically assume that the categories of object instances remain fixed over time. Moreover, they experience catastrophic forgetting of old classes when required to continuously learn object instances belonging to new categories. To resolve these challenges, we develop a novel Hierarchical Visual Prompt Learning (HVPL) model that overcomes catastrophic forgetting of previous categories from both frame-level and video-level perspectives. Specifically, to mitigate forgetting at the frame level, we devise a task-specific frame prompt and an orthogonal gradient correction (OGC) module. The OGC module helps the frame prompt encode task-specific global instance information for new classes in each individual frame by projecting its gradients onto the orthogonal feature space of old classes. Furthermore, to address forgetting at the video level, we design a task-specific video prompt and a video context decoder. This decoder first embeds structural inter-class relationships across frames into the frame prompt features, and then propagates task-specific global video contexts from the frame prompt features to the video prompt. Through rigorous comparisons, our HVPL model proves to be more effective than baseline approaches. The code is available at https://github.com/JiahuaDong/HVPL.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)は、ビデオフレーム全体にわたるオブジェクトインスタンスのトラッキングとセグメンテーションの能力において、大きな注目を集めている。
しかし、既存のVISアプローチのほとんどは、オブジェクトインスタンスのカテゴリが時間とともに固定されていると非現実的に仮定している。
さらに、新しいカテゴリに属するオブジェクトインスタンスを継続的に学習する必要がある場合に、古いクラスの破滅的な忘れを経験する。
これらの課題を解決するために、フレームレベルとビデオレベルの両方の観点から、過去のカテゴリの破滅的な忘れを克服する新しい階層型ビジュアル・プロンプト・ラーニング(HVPL)モデルを開発した。
具体的には、フレームレベルでの忘れを軽減すべく、タスク固有のフレームプロンプトと直交勾配補正(OGC)モジュールを考案する。
OGCモジュールは、古いクラスの直交的特徴空間に勾配を投影することにより、各フレーム内の新しいクラスのタスク固有のグローバルインスタンス情報をエンコードする。
さらに,ビデオレベルでの忘れを解消するために,タスク固有のビデオプロンプトとビデオコンテキストデコーダを設計する。
このデコーダは、まずフレーム間のクラス間の構造的関係をフレームプロンプト機能に埋め込み、その後、タスク固有のグローバルなビデオコンテキストをフレームプロンプト機能からビデオプロンプトに伝達する。
厳密な比較により、我々のHVPLモデルはベースラインアプローチよりも効果的であることが証明された。
コードはhttps://github.com/JiahuaDong/HVPLで入手できる。
関連論文リスト
- Enhancing Long Video Question Answering with Scene-Localized Frame Grouping [19.83545369186771]
現在のMultimodal Large Language Models (MLLMs) は、長いビデオ理解ではよく機能しない。
本稿では,ビデオ質問応答タスクであるSceneQAの新たなシナリオを提案する。
本研究では,個々のフレームを意味的に一貫性のあるシーンフレームに結合する,SLFGと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-05T02:28:58Z) - ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。