論文の概要: 1st Place Solution for the 5th LSVOS Challenge: Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2308.14392v1
- Date: Mon, 28 Aug 2023 08:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:51:07.099402
- Title: 1st Place Solution for the 5th LSVOS Challenge: Video Instance
Segmentation
- Title(参考訳): 第5回 LSVOS チャレンジの第1位: ビデオインスタンスのセグメンテーション
- Authors: Tao Zhang, Xingye Tian, Yikang Zhou, Yu Wu, Shunping Ji, Cilin Yan,
Xuebo Wang, Xin Tao, Yuan Zhang, Pengfei Wan
- Abstract要約: 我々は,SOTA VIS法,DVISのさらなる改良について述べる。
トレーニング可能なトラッカーに対して,より安定かつ正確なオブジェクト追跡を,複雑なビデオや長時間の動画で実現できるように,デノベーショントレーニング戦略を導入する。
本手法は,開発段階で57.9 APと56.0 APをそれぞれ達成し,第5回LSVOSチャレンジのVISトラックで第1位となった。
- 参考スコア(独自算出の注目度): 25.587080499097425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation is a challenging task that serves as the
cornerstone of numerous downstream applications, including video editing and
autonomous driving. In this report, we present further improvements to the SOTA
VIS method, DVIS. First, we introduce a denoising training strategy for the
trainable tracker, allowing it to achieve more stable and accurate object
tracking in complex and long videos. Additionally, we explore the role of
visual foundation models in video instance segmentation. By utilizing a frozen
VIT-L model pre-trained by DINO v2, DVIS demonstrates remarkable performance
improvements. With these enhancements, our method achieves 57.9 AP and 56.0 AP
in the development and test phases, respectively, and ultimately ranked 1st in
the VIS track of the 5th LSVOS Challenge. The code will be available at
https://github.com/zhang-tao-whu/DVIS.
- Abstract(参考訳): ビデオインスタンスのセグメンテーションは、ビデオ編集や自動運転など、多くのダウンストリームアプリケーションの基盤となる、困難なタスクである。
本稿では,SOTA VIS法,DVISのさらなる改良について述べる。
まず,トレーニング可能なトラッカに対して,より安定して正確なオブジェクトトラッキングを実現するための,高精細なトレーニング戦略を導入する。
さらに,映像インスタンスセグメンテーションにおける視覚基盤モデルの役割について検討する。
DINO v2で事前訓練された凍結VIT-Lモデルを利用することで、DVISは顕著な性能向上を示す。
これらの改良により,開発段階と試験段階において57.9 apと56.0 apをそれぞれ達成し,最終的に第5回lsvosチャレンジのvisトラックで1位にランクインした。
コードはhttps://github.com/zhang-tao-whu/dvisで入手できる。
関連論文リスト
- CSS-Segment: 2nd Place Report of LSVOS Challenge VOS Track [35.70400178294299]
第6回 LSVOS Challenge VOS Track at ECCV 2024 において,ビデオオブジェクトセグメンテーションのためのチーム "yuanjie" のソリューションを紹介した。
提案したCSS-Segmentは、複雑なオブジェクトの動きや長期的なプレゼンテーションのビデオにおいて、より優れたパフォーマンスが期待できる。
第6回 LSVOS Challenge VOS Track at ECCV 2024 で第2位にランクインした。
論文 参考訳(メタデータ) (2024-08-24T13:47:56Z) - UNINEXT-Cutie: The 1st Solution for LSVOS Challenge RVOS Track [28.52754012142431]
我々はRVOSモデルを微調整し、言語記述と相関したマスクシーケンスを得る。
VOSモデルを利用して、マスク結果の品質と時間的一貫性を向上させる。
我々のソリューションは MeViS テストセットで62.57 J&F を達成し,第6回 LSVOS Challenge RVOS Track で1位となった。
論文 参考訳(メタデータ) (2024-08-19T16:15:56Z) - 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - 1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation [25.235404527487784]
ビデオパノプティクスのセグメンテーションは、多くのダウンストリームアプリケーションの基礎となる難しいタスクである。
DVISが提案するデカップリング戦略は,時間情報をより効果的に活用できると考えている。
第2回PVUWチャレンジのVPSトラックでは,それぞれ51.4と53.7のVPQスコアを達成し,第2回PVUWチャレンジのVPSトラックで第1位となった。
論文 参考訳(メタデータ) (2023-06-07T01:24:48Z) - The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 [72.13080661144761]
この課題に対して,提案したオンラインビデオインスタンス分割方式IDOLを採用した。
擬似ラベルを使用して、コントラスト学習をさらに支援し、時間的に一貫したインスタンスの埋め込みを得る。
提案手法は、YouTube-VIS 2022長ビデオデータセット上で40.2 APを取得し、この課題において第2位にランクされた。
論文 参考訳(メタデータ) (2022-11-18T01:40:59Z) - 5th Place Solution for YouTube-VOS Challenge 2022: Video Object
Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。
類似の物体は容易に混同され、小さな物体を見つけるのが困難である。
本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文 参考訳(メタデータ) (2022-06-20T06:14:27Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。