論文の概要: CTVIS: Consistent Training for Online Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2307.12616v1
- Date: Mon, 24 Jul 2023 08:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:02:13.988003
- Title: CTVIS: Consistent Training for Online Video Instance Segmentation
- Title(参考訳): CTVIS: オンラインビデオインスタンスセグメンテーションのための一貫性のあるトレーニング
- Authors: Kaining Ying, Qing Zhong, Weian Mao, Zhenhua Wang, Hao Chen, Lin
Yuanbo Wu, Yifan Liu, Chengxiang Fan, Yunzhi Zhuge, Chunhua Shen
- Abstract要約: オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 62.957370691452844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The discrimination of instance embeddings plays a vital role in associating
instances across time for online video instance segmentation (VIS). Instance
embedding learning is directly supervised by the contrastive loss computed upon
the contrastive items (CIs), which are sets of anchor/positive/negative
embeddings. Recent online VIS methods leverage CIs sourced from one reference
frame only, which we argue is insufficient for learning highly discriminative
embeddings. Intuitively, a possible strategy to enhance CIs is replicating the
inference phase during training. To this end, we propose a simple yet effective
training strategy, called Consistent Training for Online VIS (CTVIS), which
devotes to aligning the training and inference pipelines in terms of building
CIs. Specifically, CTVIS constructs CIs by referring inference the
momentum-averaged embedding and the memory bank storage mechanisms, and adding
noise to the relevant embeddings. Such an extension allows a reliable
comparison between embeddings of current instances and the stable
representations of historical instances, thereby conferring an advantage in
modeling VIS challenges such as occlusion, re-identification, and deformation.
Empirically, CTVIS outstrips the SOTA VIS models by up to +5.0 points on three
VIS benchmarks, including YTVIS19 (55.1% AP), YTVIS21 (50.1% AP) and OVIS
(35.5% AP). Furthermore, we find that pseudo-videos transformed from images can
train robust models surpassing fully-supervised ones.
- Abstract(参考訳): インスタンス埋め込みの識別は、オンラインビデオインスタンスセグメンテーション(VIS)のために時間をかけてインスタンスを関連付ける上で重要な役割を果たす。
インスタンス埋め込み学習は、アンカー/陽性/負の埋め込みのセットであるコントラストアイテム(CI)に基づいて計算されたコントラスト損失によって直接監督される。
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
直感的には、CIを強化するための戦略は、トレーニング中に推論フェーズを複製することだ。
この目的のために我々は,CI構築の観点からトレーニングパイプラインと推論パイプラインの整合性を重視した,CTVIS(Consistent Training for Online VIS)と呼ばれる,シンプルで効果的なトレーニング戦略を提案する。
特に、CTVISは、モーメント平均埋め込みとメモリバンク記憶機構を推論し、関連する埋め込みにノイズを加えることでCIを構築する。
このような拡張により、現在のインスタンスの埋め込みと過去のインスタンスの安定した表現との信頼性の高い比較が可能となり、オクルージョンや再識別、変形といったVISの課題をモデル化する上で有利となる。
CTVISは、YTVIS19 (55.1% AP)、YTVIS21 (50.1% AP)、OVIS (35.5% AP)を含む3つのVISベンチマークで、SOTA VISモデルを最大5.0ポイント超えた。
さらに,画像から変換された擬似映像は,教師付きモデルよりも頑健なモデルを学習できることがわかった。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - Offline-to-Online Knowledge Distillation for Video Instance Segmentation [13.270872063217022]
ビデオインスタンスセグメンテーション(VIS)のためのオフライン-オンライン知識蒸留(OOKD)を提案する。
本手法は,オフラインモデルからオンラインモデルに豊富な映像知識を伝達し,一貫した予測を行う。
また,YTVIS-21,YTVIS-22,OVISデータセットのmAPスコアは46.1%,43.6%,31.1%であった。
論文 参考訳(メタデータ) (2023-02-15T08:24:37Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。