論文の概要: TCOVIS: Temporally Consistent Online Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2309.11857v1
- Date: Thu, 21 Sep 2023 07:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:20:27.105581
- Title: TCOVIS: Temporally Consistent Online Video Instance Segmentation
- Title(参考訳): TCOVIS: 一時的に一貫性のあるオンラインビデオインスタンスセグメンテーション
- Authors: Junlong Li, Bingyao Yu, Yongming Rao, Jie Zhou, Jiwen Lu
- Abstract要約: そこで我々は,TCOVISというビデオインスタンスセグメンテーションのための新しいオンライン手法を提案する。
本手法のコアは,グローバルなインスタンス割り当て戦略とビデオ時間拡張モジュールから構成される。
提案手法を4つのVISベンチマークで評価し,ベル・アンド・ウィストルを使わずに全ベンチマークで最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 98.29026693059444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, significant progress has been made in video instance
segmentation (VIS), with many offline and online methods achieving
state-of-the-art performance. While offline methods have the advantage of
producing temporally consistent predictions, they are not suitable for
real-time scenarios. Conversely, online methods are more practical, but
maintaining temporal consistency remains a challenging task. In this paper, we
propose a novel online method for video instance segmentation, called TCOVIS,
which fully exploits the temporal information in a video clip. The core of our
method consists of a global instance assignment strategy and a spatio-temporal
enhancement module, which improve the temporal consistency of the features from
two aspects. Specifically, we perform global optimal matching between the
predictions and ground truth across the whole video clip, and supervise the
model with the global optimal objective. We also capture the spatial feature
and aggregate it with the semantic feature between frames, thus realizing the
spatio-temporal enhancement. We evaluate our method on four widely adopted VIS
benchmarks, namely YouTube-VIS 2019/2021/2022 and OVIS, and achieve
state-of-the-art performance on all benchmarks without bells-and-whistles. For
instance, on YouTube-VIS 2021, TCOVIS achieves 49.5 AP and 61.3 AP with
ResNet-50 and Swin-L backbones, respectively. Code is available at
https://github.com/jun-long-li/TCOVIS.
- Abstract(参考訳): 近年、ビデオインスタンスセグメンテーション(VIS)において、多くのオフラインおよびオンラインメソッドが最先端のパフォーマンスを実現している。
オフライン手法は時間的に一貫した予測を生成する利点があるが、リアルタイムシナリオには適さない。
逆に、オンライン手法はより実践的であるが、時間的一貫性を維持することは難しい課題である。
本稿では,ビデオクリップ内の時間情報を完全に活用する,ビデオインスタンスセグメンテーションのための新しいオンライン手法TCOVISを提案する。
提案手法のコアはグローバルインスタンス割り当て戦略と時空間拡張モジュールで構成され,2つの側面から特徴の時間的一貫性を向上させる。
具体的には,ビデオクリップ全体を通して予測と根拠真理のグローバル最適マッチングを行い,そのモデルにグローバル最適目標を監督する。
また,空間的特徴を捉え,フレーム間の意味的特徴を集約し,時空間的拡張を実現する。
提案手法は,YouTube-VIS 2019/2021/2022とOVISの4つの広く採用されているVISベンチマークで評価し,ベル・アンド・ウィストルを使わずにすべてのベンチマークで最先端のパフォーマンスを実現する。
例えば、YouTube-VIS 2021では、TCOVISはそれぞれResNet-50とSwin-Lのバックボーンを持つ49.5 APと61.3 APを達成した。
コードはhttps://github.com/jun-long-li/TCOVISで入手できる。
関連論文リスト
- NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation [22.200700685751826]
ビデオインスタンス(VIS)コミュニティは、オフラインメソッドは一般的にオンライン処理によってフレームよりも優れているという共通の信念の下で運営されている。
本稿では、異なる処理パラダイムの詳細な分析と、新しいエンドツーエンドビデオインスタンス法を提案する。
我々のNOVISは、手作りの追跡を避ける最初のニアオンラインVISアプローチである。
論文 参考訳(メタデータ) (2023-08-29T12:51:04Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - In Defense of Online Models for Video Instance Segmentation [70.16915119724757]
比較学習に基づくオンライン・フレームワークを提案する。
その単純さにもかかわらず、我々の方法は3つのベンチマークでオンラインおよびオフラインのすべてのメソッドより優れています。
提案手法は,第4回大規模ビデオオブジェクトチャレンジのビデオインスタンスセグメンテーショントラックで優勝した。
論文 参考訳(メタデータ) (2022-07-21T17:56:54Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。