論文の概要: Instance As Identity: A Generic Online Paradigm for Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2208.03079v1
- Date: Fri, 5 Aug 2022 10:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:40:44.839966
- Title: Instance As Identity: A Generic Online Paradigm for Video Instance
Segmentation
- Title(参考訳): instance as identity: ビデオインスタンスセグメンテーションのための汎用オンラインパラダイム
- Authors: Feng Zhu and Zongxin Yang and Xin Yu and Yi Yang and Yunchao Wei
- Abstract要約: 我々はインスタンス・アズ・アイデンティティ(IAI)という新しいオンラインVISパラダイムを提案する。
IAIは、検出と追跡の両方の時間情報を効率的な方法でモデル化する。
3つのVISベンチマークで広範な実験を行う。
- 参考スコア(独自算出の注目度): 84.3695480773597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling temporal information for both detection and tracking in a unified
framework has been proved a promising solution to video instance segmentation
(VIS). However, how to effectively incorporate the temporal information into an
online model remains an open problem. In this work, we propose a new online VIS
paradigm named Instance As Identity (IAI), which models temporal information
for both detection and tracking in an efficient way. In detail, IAI employs a
novel identification module to predict identification number for tracking
instances explicitly. For passing temporal information cross frame, IAI
utilizes an association module which combines current features and past
embeddings. Notably, IAI can be integrated with different image models. We
conduct extensive experiments on three VIS benchmarks. IAI outperforms all the
online competitors on YouTube-VIS-2019 (ResNet-101 41.9 mAP) and
YouTube-VIS-2021 (ResNet-50 37.7 mAP). Surprisingly, on the more challenging
OVIS, IAI achieves SOTA performance (20.3 mAP). Code is available at
https://github.com/zfonemore/IAI
- Abstract(参考訳): 統合フレームワークにおける検出と追跡の両方のための時間情報のモデリングは、ビデオインスタンスセグメンテーション(VIS)において有望な解決策であることが証明された。
しかし、時間的情報をオンラインモデルに効果的に組み込む方法は未解決の問題である。
本研究では,検出と追跡の両方の時間情報を効率的にモデル化する,インスタンス・アズ・アイデンティティ(IAI)という新しいオンラインVISパラダイムを提案する。
詳しくは、新しい識別モジュールを使用して、トラッキングインスタンスの識別番号を明示的に予測する。
時間情報クロスフレームを渡すために、IAIは現在の特徴と過去の埋め込みを組み合わせたアソシエーションモジュールを利用する。
特に、IAIは異なる画像モデルに統合できる。
3つのVISベンチマークで広範な実験を行う。
IAIは、YouTube-VIS-2019 (ResNet-101 41.9 mAP) とYouTube-VIS-2021 (ResNet-50 37.7 mAP) で、全てのオンラインライバルより優れている。
驚くべきことに、より挑戦的なOVISでは、IAIはSOTA性能(20.3 mAP)を達成する。
コードはhttps://github.com/zfonemore/IAIで入手できる。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - Offline-to-Online Knowledge Distillation for Video Instance Segmentation [13.270872063217022]
ビデオインスタンスセグメンテーション(VIS)のためのオフライン-オンライン知識蒸留(OOKD)を提案する。
本手法は,オフラインモデルからオンラインモデルに豊富な映像知識を伝達し,一貫した予測を行う。
また,YTVIS-21,YTVIS-22,OVISデータセットのmAPスコアは46.1%,43.6%,31.1%であった。
論文 参考訳(メタデータ) (2023-02-15T08:24:37Z) - Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。