論文の概要: UNINEXT-Cutie: The 1st Solution for LSVOS Challenge RVOS Track
- arxiv url: http://arxiv.org/abs/2408.10129v1
- Date: Mon, 19 Aug 2024 16:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:33:14.608934
- Title: UNINEXT-Cutie: The 1st Solution for LSVOS Challenge RVOS Track
- Title(参考訳): UNINEXT-Cutie: LSVOS Challenge RVOS Trackの最初のソリューション
- Authors: Hao Fang, Feiyu Pan, Xiankai Lu, Wei Zhang, Runmin Cong,
- Abstract要約: 我々はRVOSモデルを微調整し、言語記述と相関したマスクシーケンスを得る。
VOSモデルを利用して、マスク結果の品質と時間的一貫性を向上させる。
我々のソリューションは MeViS テストセットで62.57 J&F を達成し,第6回 LSVOS Challenge RVOS Track で1位となった。
- 参考スコア(独自算出の注目度): 28.52754012142431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) relies on natural language expressions to segment target objects in video. In this year, LSVOS Challenge RVOS Track replaced the origin YouTube-RVOS benchmark with MeViS. MeViS focuses on referring the target object in a video through its motion descriptions instead of static attributes, posing a greater challenge to RVOS task. In this work, we integrate strengths of that leading RVOS and VOS models to build up a simple and effective pipeline for RVOS. Firstly, We finetune the state-of-the-art RVOS model to obtain mask sequences that are correlated with language descriptions. Secondly, based on a reliable and high-quality key frames, we leverage VOS model to enhance the quality and temporal consistency of the mask results. Finally, we further improve the performance of the RVOS model using semi-supervised learning. Our solution achieved 62.57 J&F on the MeViS test set and ranked 1st place for 6th LSVOS Challenge RVOS Track.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、ビデオ内の対象オブジェクトをセグメントする自然言語表現に依存する。
この年、LSVOS Challenge RVOS TrackはオリジナルのYouTube-RVOSベンチマークをMeViSに置き換えた。
MeViSは、静的属性の代わりに動画内のターゲットオブジェクトを参照することに重点を置いており、RVOSタスクにより大きな課題がある。
この作業では、主要なRVOSとVOSモデルの強みを統合して、RVOSのためのシンプルで効果的なパイプラインを構築します。
まず、最先端のRVOSモデルを微調整し、言語記述と相関するマスクシーケンスを得る。
第二に、信頼性が高く高品質なキーフレームに基づいて、VOSモデルを活用し、マスク結果の品質と時間的一貫性を向上させる。
最後に、半教師付き学習を用いてRVOSモデルの性能をさらに向上する。
我々のソリューションは MeViS テストセットで62.57 J&F を達成し,第6回 LSVOS Challenge RVOS Track で1位となった。
関連論文リスト
- LSVOS Challenge Report: Large-scale Complex and Long Video Object Segmentation [124.50550604020684]
本稿では,ECCV 2024ワークショップと連携して,第6回大規模ビデオオブジェクト(LSVOS)チャレンジを紹介する。
今年の課題には、ビデオオブジェクト(VOS)とビデオオブジェクト(RVOS)の2つのタスクが含まれる。
今年の挑戦は、8か国以上の20以上の機関から129の登録チームを引き寄せた。
論文 参考訳(メタデータ) (2024-09-09T17:45:45Z) - Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - LVOS: A Benchmark for Large-scale Long-term Video Object Segmentation [29.07092353094942]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内のターゲットオブジェクトの識別と追跡を目的としている。
既存のベンチマークは主に、ほとんどの場合オブジェクトが見える短期的なビデオに焦点を当てている。
296,401フレームの720の動画と407,945の高品質アノテーションからなるLVOSという新しいベンチマークを提案する。
LVOSのビデオは平均1.14分であり、既存のデータセットのビデオの約5倍の長さである。
論文 参考訳(メタデータ) (2024-04-30T07:50:29Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - 1st Place Solution for the 5th LSVOS Challenge: Video Instance
Segmentation [25.587080499097425]
我々は,SOTA VIS法,DVISのさらなる改良について述べる。
トレーニング可能なトラッカーに対して,より安定かつ正確なオブジェクト追跡を,複雑なビデオや長時間の動画で実現できるように,デノベーショントレーニング戦略を導入する。
本手法は,開発段階で57.9 APと56.0 APをそれぞれ達成し,第5回LSVOSチャレンジのVISトラックで第1位となった。
論文 参考訳(メタデータ) (2023-08-28T08:15:43Z) - Scalable Video Object Segmentation with Simplified Framework [21.408446548059956]
本稿では,機能抽出とマッチングを行うスケーラブルなVOS(SimVOS)フレームワークを提案する。
SimVOSは拡張性のあるViTバックボーンを使用して、クエリと参照の同時抽出とマッチングを行う。
実験により,我々のSimVOSは,人気ビデオオブジェクトセグメンテーションベンチマークの最先端結果を得た。
論文 参考訳(メタデータ) (2023-08-19T04:30:48Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。