論文の概要: A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2503.17672v1
- Date: Sat, 22 Mar 2025 07:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:53.156315
- Title: A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation
- Title(参考訳): ビデオインスタンスセグメンテーションに基づくビデオ事前学習のための時間的モデリングフレームワーク
- Authors: Qing Zhong, Peng-Tao Jiang, Wen Wang, Guodong Ding, Lin Wu, Kaiqi Huang,
- Abstract要約: 我々は、VISモデルを強化するための新しいビデオ事前学習手法を提案する。
私たちのイノベーションは、事前学習と微調整の段階の違いを減らすことに焦点を当てています。
提案手法は,OVISデータセットの平均精度を4.0%向上させる。
- 参考スコア(独自算出の注目度): 32.65111815620319
- License:
- Abstract: Contemporary Video Instance Segmentation (VIS) methods typically adhere to a pre-train then fine-tune regime, where a segmentation model trained on images is fine-tuned on videos. However, the lack of temporal knowledge in the pre-trained model introduces a domain gap which may adversely affect the VIS performance. To effectively bridge this gap, we present a novel video pre-training approach to enhance VIS models, especially for videos with intricate instance relationships. Our crucial innovation focuses on reducing disparities between the pre-training and fine-tuning stages. Specifically, we first introduce consistent pseudo-video augmentations to create diverse pseudo-video samples for pre-training while maintaining the instance consistency across frames. Then, we incorporate a multi-scale temporal module to enhance the model's ability to model temporal relations through self- and cross-attention at short- and long-term temporal spans. Our approach does not set constraints on model architecture and can integrate seamlessly with various VIS methods. Experiment results on commonly adopted VIS benchmarks show that our method consistently outperforms state-of-the-art methods. Our approach achieves a notable 4.0% increase in average precision on the challenging OVIS dataset.
- Abstract(参考訳): 現代のビデオインスタンスセグメンテーション (VIS) の手法は、通常、ビデオ上で訓練されたセグメンテーションモデルが微調整される、事前訓練後、微調整されたレシエーションに準拠する。
しかし、事前訓練されたモデルにおける時間的知識の欠如は、VISの性能に悪影響を及ぼす可能性のある領域ギャップをもたらす。
このギャップを効果的に埋めるために、特に複雑なインスタンス関係を持つビデオに対して、VISモデルを強化するための新しいビデオ事前学習手法を提案する。
私たちの重要なイノベーションは、事前訓練と微調整の段階の違いを減らすことです。
具体的には、まず一貫した擬似ビデオ拡張を導入し、フレーム間のインスタンス一貫性を維持しながら、事前トレーニングのための多様な擬似ビデオサンプルを作成する。
そこで我々は,短期・長期の時間的空間における自己および横断的意識を通じて,時間的関係をモデル化するモデルの能力を高めるために,マルチスケールの時間的モジュールを組み込んだ。
我々のアプローチはモデルアーキテクチャに制約を設定せず、様々なVISメソッドとシームレスに統合できる。
一般に採用されているVISベンチマーク実験の結果,我々の手法は最先端の手法より一貫して優れていることがわかった。
提案手法は,OVISデータセットの平均精度を4.0%向上させる。
関連論文リスト
- Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Learning Video Instance Segmentation with Recurrent Graph Neural
Networks [39.06202374530647]
本稿では,ビデオインスタンスのセグメンテーション問題全体を共同でモデル化する,新しい学習形式を提案する。
私たちは、グラフニューラルネットワークの助けを借りて、利用可能なすべての新しい情報を各フレームで処理する、フレキシブルなモデルに適合します。
われわれのアプローチは25FPS以上で、従来のビデオリアルタイム手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-07T18:41:35Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。