論文の概要: Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024
- arxiv url: http://arxiv.org/abs/2406.00587v1
- Date: Sun, 2 Jun 2024 01:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:15:52.092937
- Title: Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024
- Title(参考訳): PVUW2024のための信頼できない擬似ラベルを用いた半教師付きビデオセマンティックセマンティックセマンティックセグメンテーション
- Authors: Biao Wu, Diankai Zhang, Si Gao, Chengjian Zheng, Shaoli Liu, Ning Wang,
- Abstract要約: 信頼できない擬似ラベルに基づく半教師付きビデオセマンティックセグメンテーション手法を採用する。
本手法では,mIoUが63.71%,67.83%,最終試験が67.83%であった。
CVPR 2024におけるワイルドチャレンジにおけるビデオ・シーン・パーシングの第1位を獲得した。
- 参考スコア(独自算出の注目度): 12.274092278786966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel-level Scene Understanding is one of the fundamental problems in computer vision, which aims at recognizing object classes, masks and semantics of each pixel in the given image. Compared with image scene parsing, video scene parsing introduces temporal information, which can effectively improve the consistency and accuracy of prediction,because the real-world is actually video-based rather than a static state. In this paper, we adopt semi-supervised video semantic segmentation method based on unreliable pseudo labels. Then, We ensemble the teacher network model with the student network model to generate pseudo labels and retrain the student network. Our method achieves the mIoU scores of 63.71% and 67.83% on development test and final test respectively. Finally, we obtain the 1st place in the Video Scene Parsing in the Wild Challenge at CVPR 2024.
- Abstract(参考訳): 画像内の各ピクセルのオブジェクトクラス、マスク、セマンティクスを認識することを目的としている。
映像シーン解析と比較して、映像シーン解析は時間的情報を導入し、実際の世界は静的な状態ではなく、実際にビデオベースであるため、予測の一貫性と精度を効果的に向上させることができる。
本稿では,信頼できない擬似ラベルに基づく半教師付きビデオセマンティックセグメンテーション手法を採用する。
そこで,教師ネットワークモデルを学生ネットワークモデルとアンサンブルして擬似ラベルを生成し,学生ネットワークを再訓練する。
本手法では,mIoUが63.71%,67.83%,最終試験が67.83%であった。
最後に,CVPR 2024のワイルドチャレンジにおけるビデオ・シーン・パーシングにおいて,第1位を獲得した。
関連論文リスト
- Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - Memory Based Video Scene Parsing [25.452807436316167]
57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションを紹介した。
論文 参考訳(メタデータ) (2021-09-01T13:18:36Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。