論文の概要: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency
- arxiv url: http://arxiv.org/abs/2408.16661v2
- Date: Sat, 23 Nov 2024 20:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:25.502554
- Title: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency
- Title(参考訳): 時空間整合性を利用した弱教師付きビデオインスタンスセグメンテーションの改善
- Authors: Farnoosh Arefi, Amir M. Mansourian, Shohreh Kasaei,
- Abstract要約: 我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。
コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
- 参考スコア(独自算出の注目度): 9.115508086522887
- License:
- Abstract: The performance of Video Instance Segmentation (VIS) methods has improved significantly with the advent of transformer networks. However, these networks often face challenges in training due to the high annotation cost. To address this, unsupervised and weakly-supervised methods have been developed to reduce the dependency on annotations. This work introduces a novel weakly-supervised method called Eigen-Cluster VIS that, without requiring any mask annotations, achieves competitive accuracy compared to other VIS approaches. This method is based on two key innovations: a Temporal Eigenvalue Loss (TEL) and a clip-level Quality Cluster Coefficient (QCC). The TEL ensures temporal coherence by leveraging the eigenvalues of the Laplacian matrix derived from graph adjacency matrices. By minimizing the mean absolute error between the eigenvalues of adjacent frames, this loss function promotes smooth transitions and stable segmentation boundaries over time, reducing temporal discontinuities and improving overall segmentation quality. The QCC employs the K-means method to ensure the quality of spatio-temporal clusters without relying on ground truth masks. Using the Davies-Bouldin score, the QCC provides an unsupervised measure of feature discrimination, allowing the model to self-evaluate and adapt to varying object distributions, enhancing robustness during the testing phase. These enhancements are computationally efficient and straightforward, offering significant performance gains without additional annotated data. The proposed Eigen-Cluster VIS method is evaluated on the YouTube-Video Instance Segmentation (YouTube-VIS) 2019/2021 and Occluded Video Instance Segmentation (OVIS) datasets, demonstrating that it effectively narrows the performance gap between the fully-supervised and weakly-supervised VIS approaches. The code is available on https://github.com/farnooshar/EigenClusterVIS
- Abstract(参考訳): ビデオインスタンスセグメンテーション(VIS)法の性能は、トランスフォーマーネットワークの出現により大幅に向上した。
しかし、これらのネットワークは、高いアノテーションコストのために、トレーニングの課題に直面していることが多い。
これを解決するために、アノテーションへの依存を減らすために、教師なしおよび弱教師付き手法が開発されている。
この研究はEigen-Cluster VISと呼ばれる新しい弱教師付き手法を導入し、マスクアノテーションを一切必要とせず、他のVIS手法と比較して競争精度が向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質クラスタ係数(QCC)という2つの重要なイノベーションに基づいている。
TELはグラフ隣接行列から導かれるラプラシア行列の固有値を活用することで時間的コヒーレンスを保証する。
隣接するフレームの固有値間の平均絶対誤差を最小化することにより、この損失関数はスムーズな遷移と安定したセグメンテーション境界を時間とともに促進し、時間的不連続性を低減し、全体的なセグメンテーション品質を向上させる。
QCCはK平均法を用いて、地上の真相マスクに頼ることなく時空間クラスタの品質を保証する。
Davies-Bouldinスコアを用いることで、QCCは機能判別の教師なしの尺度を提供し、モデルが様々なオブジェクト分布を自己評価し、適応し、テストフェーズにおける堅牢性を高める。
これらの拡張は計算的に効率的で簡単であり、付加的な注釈付きデータなしで大きなパフォーマンス向上を提供する。
提案手法はYouTube-Video Instance Segmentation (YouTube-VIS) 2019/2021とOccluded Video Instance Segmentation (OVIS)データセットに基づいて評価され、完全に教師されたVISアプローチと弱い教師付きVISアプローチの間のパフォーマンスギャップを効果的に制限することを示した。
コードはhttps://github.com/farnooshar/EigenClusterVISで入手できる。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Bayesian Nonparametric Submodular Video Partition for Robust Anomaly
Detection [9.145168943972067]
MIL(Multiple-instance Learning)は、ビデオ異常検出問題に対処するための効果的な方法である。
我々は,MILモデルトレーニングを大幅に改善するために,新しいベイズ非パラメトリックサブモジュールビデオ分割(BN-SVP)を提案する。
我々の理論解析は,提案アルゴリズムの性能保証を確実にする。
論文 参考訳(メタデータ) (2022-03-24T04:00:49Z) - Improved Dual Correlation Reduction Network [40.792587861237166]
改良二重相関低減ネットワーク(IDCRN)と呼ばれる新しいディープグラフクラスタリングアルゴリズムを提案する。
クロスビュー特徴相関行列をアイデンティティ行列に近似することにより、特徴の異なる次元間の冗長性を低減できる。
また,グラフ畳み込みネットワーク(GCN)における過度にスムースな問題による表現の崩壊を,伝播正規化項によって回避する。
論文 参考訳(メタデータ) (2022-02-25T07:48:32Z) - Exploring the Semi-supervised Video Object Segmentation Problem from a
Cyclic Perspective [36.4057004419079]
本稿では,半教師付きビデオオブジェクトセグメンテーション問題を循環ワークフローに配置する。
標準的な逐次フローに組み込まれた循環機構は、ピクセルワイド対応のより一貫性のある表現を実現できることを示す。
また、勾配補正プロセスに基づくサイクル有効受容場(サイクルERF)を開発し、対象分野の関心領域を解析するための新たな視点を提供する。
論文 参考訳(メタデータ) (2021-11-02T01:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。