論文の概要: STSeg-Complex Video Object Segmentation: The 1st Solution for 4th PVUW MOSE Challenge
- arxiv url: http://arxiv.org/abs/2504.08306v1
- Date: Fri, 11 Apr 2025 07:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:53.973353
- Title: STSeg-Complex Video Object Segmentation: The 1st Solution for 4th PVUW MOSE Challenge
- Title(参考訳): STSeg-complex Video Object Segmentation:第4回PVUW MOSEチャレンジの第一の解決策
- Authors: Kehuan Song, Xinglin Xie, Kexin Zhang, Licheng Jiao, Lingling Li, Shuyuan Yang,
- Abstract要約: このレポートでは、"imaplus"チームによって提案されたSTSegソリューションについて詳述する。
STSegソリューションは、複雑なオブジェクトの動きや長いビデオシーケンスを扱う際、顕著な利点を示す。
2025年の第4回PVUWチャレンジMOSEトラックのテストセットで87.26%のJ&Fスコアを獲得し、第1位を確保し、複雑なシナリオにおけるビデオオブジェクトのセグメンテーションの技術を進歩させた。
- 参考スコア(独自算出の注目度): 46.51396150518382
- License:
- Abstract: Segmentation of video objects in complex scenarios is highly challenging, and the MOSE dataset has significantly contributed to the development of this field. This technical report details the STSeg solution proposed by the "imaplus" team.By finetuning SAM2 and the unsupervised model TMO on the MOSE dataset, the STSeg solution demonstrates remarkable advantages in handling complex object motions and long-video sequences. In the inference phase, an Adaptive Pseudo-labels Guided Model Refinement Pipeline is adopted to intelligently select appropriate models for processing each video. Through finetuning the models and employing the Adaptive Pseudo-labels Guided Model Refinement Pipeline in the inference phase, the STSeg solution achieved a J&F score of 87.26% on the test set of the 2025 4th PVUW Challenge MOSE Track, securing the 1st place and advancing the technology for video object segmentation in complex scenarios.
- Abstract(参考訳): 複雑なシナリオにおけるビデオオブジェクトのセグメンテーションは非常に困難であり、MOSEデータセットはこの分野の発展に大きく貢献している。
SAM2とMOSEデータセット上の教師なしモデルTMOを微調整することで、STSegソリューションは複雑なオブジェクトの動きや長いビデオシーケンスを扱う上で、顕著なアドバンテージを示す。
推論フェーズでは、各ビデオを処理する適切なモデルをインテリジェントに選択するために、Adaptive Pseudo-labels Guided Model Refinement Pipelineが採用される。
モデルを微調整し、推論フェーズでAdaptive Pseudo-labels Guided Model Refinement Pipelineを使用し、STSegソリューションは2025年の第4回PVUWチャレンジMOSEトラックのテストセットで87.26%のJ&Fスコアを達成した。
関連論文リスト
- Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge [8.941623670652389]
本報告ではPRCVチャレンジの方法論について概説する。
シナリオの認知と意思決定に重点を置いています。
我々のモデルは0.6064のスコアを獲得し、競技の最終結果の最初の賞を確保した。
論文 参考訳(メタデータ) (2024-11-05T11:00:55Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Semantic Segmentation on VSPW Dataset through Masked Video Consistency [19.851665554201407]
PVUWコンペティションのソリューションとして,既存のモデルに基づくマスク付きビデオ(MVC)を紹介する。
MVCは、パッチが保持されないマスキングランダムフレームの予測間の一貫性を強制する。
VSPWデータセットでは,PVUW2024 VSSトラックの2位で67% mIoU性能を達成した。
論文 参考訳(メタデータ) (2024-06-07T14:41:24Z) - SalFoM: Dynamic Saliency Prediction with Video Foundation Models [37.25208752620703]
ビデオサリエンシ予測(VSP)は人間の視覚システムと比較して有望な性能を示した。
本稿では,新しいエンコーダデコーダビデオトランスアーキテクチャであるSalFoMを紹介する。
本モデルはUnMasked Teacher(UMT)抽出器を使用し,異種デコーダを意識した時間変換器を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:38:54Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video
Salient Object Detection [5.207048071888257]
本研究では,パノラマ映像の空間的流れとそれに対応する光学的流れを利用する時空間二重モード混合流れネットワーク(STDMMF-Net)を提案する。
多くの主観的および客観的な実験結果から,提案手法が最先端(SOTA)法よりも優れた検出精度を示すことが確認された。
提案手法の総合性能は, モデル推論, テスト時間, 複雑性, 一般化性能に要求されるメモリの点で優れている。
論文 参考訳(メタデータ) (2023-10-13T11:25:41Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。